так сумка почти не применяется, TF-IDF естьже. ну и всякие RNN и LSTM на последовательностях тоже дают хорошие результаты, а они пришли из текстового NLP
так сумка почти не применяется, TF-IDF естьже. ну и всякие RNN и LSTM на последовательностях тоже дают хорошие результаты, а они пришли из текстового NLP
по нескольким задачам у меня TF-IDF всегда был лучше простого мешка. причина, думаю, проста: мешок цепляет информацию "по-горизонтали", а TF-IDF также "по-вертикали"
та не, я последовательно наращивал бейслайн, сначала счетчики, потом попробовал tf-idf - улучшило, потом сверху pca - иногда улучшает, иногда нет, зависит от задачи, но tf-idf всегда был лучше просто счетчика