Multilingual Universal Sentence Encoderfor Semantic Retrieval
Yang, Cer et al. [Google], 2019
arxiv.org/abs/1907.04307Если кто-то пользовался TFHub, то один из самых популярных модулей там - это Universal Sentence Encoder (
arxiv.org/abs/1803.11175). USE - это трансформер из эпохи позднего предбертья, предобучающаяся как на unsupervised (skip-thought), так и на supervised (SNLI) тасках.
Однако USE, выложенный на TFHub был недостаточно universal, потому что он был обучен только на английском. В новой версии он поддерживает 16 языков (включая русский 🎉). Про то, как он обучается: a multi-feature question-answer prediction task, a translation ranking task, and a natural language inference task. Я надеюсь, что вы поняли, потому что это всё, что я смог выудить из статьи.
Про данные расказано немного больше и есть интересные моменты:
1. QA-пары намайнены с Reddit, StackOverflow и YahooAnswers; часть QA-датасета переведена, чтобы добить все языки хотя бы до 60 млн пар вопрос-ответ
1. Переводы намайнены согласно
www.aclweb.org/anthology/C10-1124 (статья просто даёт ссылку)
1. SNLI переведён с английского на все остальные 15 языков автоматически с помощью Google Translate
Кроме добавления 15 языков, модель теперь протестирована на поисковых тасках и показывает адекватное качество.
Из других интересных вещей: выложена не только transformer-based архитектура, но и CNN. CNN подходит вам сильно больше, если ваши тексты длинные, и/или вам важна производительность.
за наводку на статью спасибо
@someotherusername