Тут еще замес в склонении слов, посоветуешь какую литературу на этот счет? Интересны алгоритмические подходы по более точной кластеризации слов с разными склонением, но одинаковым смыслом :)
Если коротко, то для этого скорее использует нормализацию на этапе препроцессинга. Для русского нормализуют через лемматизацию (приведение к так называемой лемме). На питоне есть pymorphy2 и pymystem3.
Если подробнее, то могу наверное пару книг посоветовать попозже. Но книге скорее про английский. Для русского скорее инфу можно найти на открытых курсах. Тоже могу поделиться, если интересно.
А ещё есть чатики, где могут подсказать