Привет!
У меня есть размеченный датасет мероприятий, но он multi-labeled, т.е. для каждого объекта у меня есть несколько лейблов (2.5 в среднем), описывающих тематику мероприятия. Некоторые из этих тематик очень сильно пересекаются (например, IT и ML), а некоторые являются подмножеством других (например, Образование и Дошкольное образование). Посоветуйте, пожалуйста, как можно свести кол-во тематик для каждого мероприятия к 1?
Не пробовали по каждому объекту найти тему как сумму тем с использованием какого-нибудь wordtovec, либо кластеризацию провести(сначала словарь, затем bow, затем какой-нибудь kmeans, предварительно по силуэту или по правилу локтя число кластеров подобрать) и уже кластеры обозвать, а названием кластера уже сам объект.. Можно попробовать bigartm,если рассматривать лейблы вместе для каждого объекта, как маленький текст...