Size: a a a

ML Boot Camp Official

2020 September 01

p

pepeground_bot in ML Boot Camp Official
пепе. :(.
источник

AT

Alexey Tikhonov in ML Boot Camp Official
источник

JS

Jury Sergeev in ML Boot Camp Official
С днем знаний!
источник

ВР

Виталий Рабош... in ML Boot Camp Official
Какие книги в день знаний 2020 лучшие по МЛ на рус? Как для начинающих и вообще бестселеры есть?
источник

ИП

Илья Пятницкий... in ML Boot Camp Official
Виталий Рабош
Какие книги в день знаний 2020 лучшие по МЛ на рус? Как для начинающих и вообще бестселеры есть?
По нейронкам Николенко "Глубокое обучение. Погружение в мир нейронных сетей"
источник

ИП

Илья Пятницкий... in ML Boot Camp Official
Ну и лично мне очень понравилась "Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем" Жерон Орельен
источник

ЕТ

Егор Ткаченко... in ML Boot Camp Official
посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается
источник

IG

Ivan Glebov in ML Boot Camp Official
Егор Ткаченко
посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается
ну pymorphy может наверное долго считатся, а почему токенизаторм каким-нить из nltk не воспользоваться?
источник

ЕТ

Егор Ткаченко... in ML Boot Camp Official
Ivan Glebov
ну pymorphy может наверное долго считатся, а почему токенизаторм каким-нить из nltk не воспользоваться?
я только пайморфи знаю)
источник

ЕТ

Егор Ткаченко... in ML Boot Camp Official
а можно пример или слова которые гуглить?
источник

ЕТ

Егор Ткаченко... in ML Boot Camp Official
там 20к строк примерно
источник

IG

Ivan Glebov in ML Boot Camp Official
Егор Ткаченко
я только пайморфи знаю)
ну и судя по коду у тебя parse pymorphy 2 раза вызывается, можно наверное преобразовать функции в одну или еще что-нибудь чтобы не вызывать два раза
источник

ВР

Виталий Рабош... in ML Boot Camp Official
Егор Ткаченко
посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается
если прально понял задачу, то так буде тлучше re.sub(r'[\s]{2,}', ' ', seq)
источник

ВР

Виталий Рабош... in ML Boot Camp Official
строки 54 - 60
источник

ВР

Виталий Рабош... in ML Boot Camp Official
тебе надо сделать чтоб были только 1 пробел везде?
источник

IG

Ivan Glebov in ML Boot Camp Official
Егор Ткаченко
а можно пример или слова которые гуглить?
если про токенизатор, это вроде одно из того что у тебя делает функция Seq2Vec, то воспользоваться nltk, тоесть погуглить nltk
источник

ВР

Виталий Рабош... in ML Boot Camp Official
seq = re.sub(r'[\s]{2,}', ' ', str(seq))
seqArray = re.sub(r'[^A-zА-яЁё ]', '', seq).split()
источник

ЕТ

Егор Ткаченко... in ML Boot Camp Official
пока оптимизировал к
https://pastebin.com/7y0Tyf7b
и очистку строк делаю до обработки
источник

IG

Ivan Glebov in ML Boot Camp Official
Егор Ткаченко
пока оптимизировал к
https://pastebin.com/7y0Tyf7b
и очистку строк делаю до обработки
а чего тебе эту штуку mp = morph.parse(word) не вызывать один раз?
источник

IP

Ivan Pastukhov in ML Boot Camp Official
Егор Ткаченко
посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается
Самое простое - составить словарь токенов, их предобработать пайморфи вот так: vocab_norm = {token: preprocessed_token}, и нормализовать каждый токен в датасете уже не с помощью morpher.parse, а с помощью vocab_norm.get(token)
источник