Телеграмм чат группы mlbootcamp страница 14169

Ну и лично мне очень понравилась "Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем" Жерон Орельен

источник

11:42пожаловаться #6

ЕТ

Егор Ткаченко... in ML Boot Camp Official

посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается

источник

12:50пожаловаться #7

IG

Ivan Glebov in ML Boot Camp Official

Егор Ткаченко

посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается

ну pymorphy может наверное долго считатся, а почему токенизаторм каким-нить из nltk не воспользоваться?

источник

13:05пожаловаться #8

ЕТ

Егор Ткаченко... in ML Boot Camp Official

Ivan Glebov

ну pymorphy может наверное долго считатся, а почему токенизаторм каким-нить из nltk не воспользоваться?

я только пайморфи знаю)

источник

13:05пожаловаться #9

ЕТ

Егор Ткаченко... in ML Boot Camp Official

а можно пример или слова которые гуглить?

источник

13:05пожаловаться #10

ЕТ

Егор Ткаченко... in ML Boot Camp Official

там 20к строк примерно

источник

13:06пожаловаться #11

IG

Ivan Glebov in ML Boot Camp Official

Егор Ткаченко

я только пайморфи знаю)

ну и судя по коду у тебя parse pymorphy 2 раза вызывается, можно наверное преобразовать функции в одну или еще что-нибудь чтобы не вызывать два раза

источник

13:07пожаловаться #12

ВР

Виталий Рабош... in ML Boot Camp Official

Егор Ткаченко

посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается

если прально понял задачу, то так буде тлучше re.sub(r'[\s]{2,}', ' ', seq)

источник

13:08пожаловаться #13

ВР

Виталий Рабош... in ML Boot Camp Official

строки 54 - 60

источник

13:08пожаловаться #14

ВР

Виталий Рабош... in ML Boot Camp Official

тебе надо сделать чтоб были только 1 пробел везде?

источник

13:08пожаловаться #15

IG

Ivan Glebov in ML Boot Camp Official

Егор Ткаченко

а можно пример или слова которые гуглить?

если про токенизатор, это вроде одно из того что у тебя делает функция Seq2Vec, то воспользоваться nltk, тоесть погуглить nltk

источник

13:08пожаловаться #16

ВР

Виталий Рабош... in ML Boot Camp Official

seq = re.sub(r'[\s]{2,}', ' ', str(seq))
seqArray = re.sub(r'[^A-zА-яЁё ]', '', seq).split()

источник

13:10пожаловаться #17

ЕТ

Егор Ткаченко... in ML Boot Camp Official

пока оптимизировал к
https://pastebin.com/7y0Tyf7b
и очистку строк делаю до обработки

источник

13:15пожаловаться #18

IG

Ivan Glebov in ML Boot Camp Official

Егор Ткаченко

пока оптимизировал к
https://pastebin.com/7y0Tyf7b
и очистку строк делаю до обработки

а чего тебе эту штуку mp = morph.parse(word) не вызывать один раз?

источник

13:17пожаловаться #19

IP

Ivan Pastukhov in ML Boot Camp Official

Егор Ткаченко

посоветуйте пожалуйста как можно ускорить подготовку данных?
https://pastebin.com/8G4eQB8g

есть датасет с колонками [text, label]
text это предложение на русском, label класс 1,2,3

я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм
но оно уде 3 часа считается

Самое простое - составить словарь токенов, их предобработать пайморфи вот так: vocab_norm = {token: preprocessed_token}, и нормализовать каждый токен в датасете уже не с помощью morpher.parse, а с помощью vocab_norm.get(token)

источник

13:19пожаловаться #20