Ну и лично мне очень понравилась "Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем" Жерон Орельен
есть датасет с колонками [text, label] text это предложение на русском, label класс 1,2,3
я пытають рассчитать колонку model, что бы там были эмбеддинги предложений для обучения лстм но оно уде 3 часа считается
Самое простое - составить словарь токенов, их предобработать пайморфи вот так: vocab_norm = {token: preprocessed_token}, и нормализовать каждый токен в датасете уже не с помощью morpher.parse, а с помощью vocab_norm.get(token)