На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?
Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?
Мне кажется, стоит искать оверфитинг у лог рега :) например, если мало данных. нейросети чаще проигрывают из-за оверфитинга, а не репрезентативной способности. На многих NLP задачах совершенно разные головы поверх эмбеддингов показывают примерно одинаковые результаты. Где-то конечно есть задачи, где эмбеддинга мало, и сеть делает дополнительные фичи. На классификации текста обычно дополнительных внутренних фич не нужно, на голову пофиг, а вот более хорошие эмбеддинги (CNN/ULMFIT/ELMO/BERT) увеличивают качество, но при условии, что у вас мало supervised данных. Если же данных много -- то пофиг и на эмбеддинг, и на голову.