На прошлой неделе прошла конференция Balto-Slavic NLP, на которой, в частности, презентовали несколько интересных работ по русскому языку.
Russian Paraphrasers: Paraphrase with Transformers. Авторы собрали
датасет русских парафраз из субтитров, новостных заголовков и диалогов с чатботами (как набирали последние, непонятно). На таких парах дообучили GPT от Сбера и mT5 (T5 работает заметно лучше, чем GPT). При генерации разные варианты парафраз переранжируются по косинусной близости их эмбеддингов предложений. В результате получается около 60-70% хороших парафраз по оценкам авторов, и около 50% - по моим собственным. Пробовали применить парафразеры для аугментации обучающих выборок задач Russian superGLUE, но прироста качества почти не получилось. Нейросетки выложены на
huggingface, а готовый пакет для перефразирования - на
гитхаб. Моё мнение: результат неидеального качества, но это шаг в очень важном направлении, ибо хорошие парафразеры важны для кучи других задач NLU и NLG.
Creating an Aligned Russian Text Simplification Dataset from Language Learner Data. Авторы взяли книги для иностранцев на упрощённом русском языке и произвели выравнивание их абзацев с оригиналами книг на обычном русском. Получили параллельный корпус, где в более простой версии втрое меньше уникальных слов и вдвое короче предложения. Обучили на этом нейросетку для упрощения текстов, и вроде бы качество хорошее, но ни модель, ни корпус авторы пока не выложили, так что проверить сложно. Но если вам нужна симплификация для русского уже сейчас, берите
дорожку с Диалога и
модель Дани Анастасьева, занявшую первое место в этой дорожке.
Abusive Language Recognition in Russian. Авторы собрали датасет на 15К абзацев из Твиттера, субтитров к South park, и уже имеющегося датасета с Кэггла, и разметили его на предмет оскорбительности. На этом попробовали обучать разные модели, и tf-idf+SVM показал себя лучше, чем BERT. Видимо, токсичность на этом датасете сводится в основном к использованию плохих слов. Данные
выложены, можно пользоваться. Впрочем, непонятно, насколько это лучше, чем данные из
соревнования Одноклассников.
Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company’s Reputation - работа моих коллег по Сколтеху, в каком-то смысле дополняющая предыдущую. Задача - обезопасить диалоги с чатботом, научиться выделять в сообщениях потенциально опасные темы (от наркотиков и терроризма до боди шейминга и суицида), а также конкретные опасные предложения на эти темы. И в общем-то, это две разные задачи, поскольку не любое сообщение на опасную тему само по себе является опасным. Авторы собрали
датасеты из двача и ответов
mail.ru, пофильтровали эвристиками и разметили на Толоке. На этом обучили
два BERTа, ими вполне можно пользоваться для фильтрации сообщений (скомбинировав их со стандартным фильтром на токсичную лексику).
Там же представили статью
RuSentEval: Linguistic Source, Encoder Force! о пробинге русских бертов, про которую я уже писал
недавно.