Есть несколько видов лингвистической стеганографии, я пока остановилась на текстовой (форматирование). Думаю попробовать заменить способ векторизации, попробовать устойчивые к шуму векторные представления слов. Заменить n_gramms + tf-idf на fasttext, RoVe, BEP tokenization
Да, я понимаю о чем речь. В моем дипломе тоже был анализ профилей, собранных по тексту. И там в основном был частотный анализ символов. До n-grams я в то время не дошел, но аналогичные проекты, работающие со всякими слогами (дифтонгами, точнее), показывали хорошие результаты.
Очень важно при этом делать нормализацию текста.