Всем привет.
Как определить ‘какой уровень препроцессинга’ надо произвести для нлп задачи?
Стоит задача sentiment classification, общее количество training дата около 10к, unbalanced, провёл back translation и увеличил количество в два раза.
Пример даты:
До preprocessing
Когда 10 лет назад я принял ее из приюта, она была напугана и агрессивной. Сегодня она самая любящая кошка, я когда-либо встречал.
Провёл все возможные tokenizing, lemma, stemma, stopwords итп и на выходе получил такой текст
После
принять приют напугать агрессивный самый любящий кошка когда-либо встречать.
Допустим если хочу использовать logistic regression, разумно ли делать такой preprocessing или лучше ограничиться минимумом типа удаление English words, возможно немножко stopwords итп.