Добрый день. Задача кластеризации текстов.
Датасет - 2000 объектов с текстовым описанием.
Текстовое описание - довольно короткое, десяток предложений.
напр., объект "береза" (с описанием) и объект "сосна". Хочется, чтобы они семантически попадали в кластер "деревья", даже при условии, что слово "дерево" не встретится ни там, ни там.
Не все объекты в датасете являются деревьями.
в ODS подсказали, что лучше всего это делать через BERT (LDA меня не спасет по их словам), но хочется еще мнений.
Или ткнули в верном направлении и мне смотреть в сторону предобученных эмбеддингов?