Добрый день, кто-нибудь сталкивался с задачей классификации тмц? Т.е все новые тмц, например "Батарейка алкал.АА LR6 1,5В" относить к конкретной категории, которая уже есть "Батарейка"? С одной стороны эта задача похожа на классификацию текстов (уже пробовал строить LSTM, сверточную и GRU), но проблема что данных для обучения практически нет (пока что 1500 записей и 400 категорий). Может быть кто-то занимался подобным?
А просто очистить, лемматизацию провести (к начальной форме), токенизацию, мешок слов(или без него попробовать, просто номер позиции токена в словаре) , получится последовательность чисел, которую можно кластеризовать kmeans или агломеративной? Ну или попробовать трансфер лернинг с рекуррентными сетями, тем более, что уже частично готово, но сначала подключить эмбеддинги предобученные(векторные представления слов, их надо поискать для русского), раз данных мало...