Size: a a a

2019 October 15
DL in NLP
exbert.net - A Visual Analysis Tool to Explore Learned Representations in Transformers Models

Удобная тулза для визуализации внутренних представлений BERT. Астроголи объявили удвоение статей по анализу трансформеров на следующем ACL.

twitter.com/Ben_Hoov/status/1183823783754371076
источник
DL in NLP
Ещё тут люди говорят, что RAdam на самом деле не делает ничего полезного и стоит продолжать использовать Adam с warmup. И даже предлагают сколько этого warmup’а нужно (спойлер: 2/(1−β2) итераций).

twitter.com/denisyarats/status/1183794108856459264
источник
DL in NLP
И вышел Python 3.8

Основные фичи:
1. Walrus operator, позволяющий одновременно присвоить значение и возвратить его
1. Positional-only arguments
1. Много всего нового в модуле typing (посмотрите на протоколы!)
1. Новый синтаксис в f-string f"{my_variable=}", который эквивалентен f"my_variable={my_variable}"
1. Новый модуль importlib.metadata, позволяющий узнавать информацию о dependency и об установленных пакетах на уровне кода
1. Новые фичи в math и statistics: math.prod, math.isqrt, statistics.geometric_mean, statistics.multimode, statistics.NormalDist
1. Warnings about dangerous syntax. Вот этот лично мне будет полезен: SyntaxWarning: 'tuple' object is not callable; you missed a comma?
1. Всякие ускорения (namedtuple работает в 2 раза быстрее)

realpython.com/python38-new-features
источник
2019 October 16
DL in NLP
Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges
Arivazhagan et al. [Google Brain]
arxiv.org/abs/1907.05019

We also studied other properties of very deep networks, including the depth-width trade-off, trainability challenges and design choices for scaling Transformers to over 1500 layers with 84 billion parameters.

А теперь немного серьёзнее. Как они до такого дошли?
Идея: многоязычные системы машинного перевода существуют уже давно, но обычно их обучают на нескольких high-resource языках (гигабайты текста); но почему бы не попробовать обучить их на 103 языках (25 млн. пар предложений) и посмотреть на BLEU en⟼any и any⟼ en?
При модели Transformer-Big, стандартной для машинного перевода, у высокоресурсных языков (немецкий, французский, …) качество падает относительно двуязычного бейзлайна (максимум -5 BLEU). Однако, BLEU низкоресурсных языков (йоруба, синдхи, савайский, …) растёт вплоть до +10 BLEU (в среднем +5). И это очень заметное улучшение.
Но как сохранить высокочастотные языки? Возможно, модель просто недостаточно ёмкая, чтобы выучить их одновременно с низкочастотными (попробуйте сами выучить сотню языков). Как проверить эту гипотезу? Увеличить модель до безумных размеров!

Способа увеличить модельку два: в ширину и в глубину.
1. Wide transformer (24 слоя, 32 головы, 2048 attention hidden, 16384 fc-hidden, 1.3B total)
2. Deep transformer (48 слоёв, 16 голов, 1024 attention hidden, 4096 fc-hidden, 1.3B total)
Результат: ещё больший прирост в низкоресурсных, появился прирост в среднересурсных, потерь в высокоресурсных почти нет.

статья в блоге: ai.googleblog.com/2019/10/exploring-massively-multilingual.html
за ссылку спасибо @twlvth

P.S. Заявленная в блоге модель на 84B параметров в тексте статьи так и не появилась =(
Гугл, не надо так.
P.P.S Также очень советую посмотреть статью. В ней много подробностей о тренировке, e.g. как правильно семплить языки и больше интересных резульатов. В один пост не уместить.
источник
DL in NLP
источник
2019 October 17
DL in NLP
Забавный способ применения GPT-2. Для шифрованных сообщений. С фиксированным сидом можно подобрать такой префиксный текст, который генерит ваше секретное послание.

twitter.com/altsoph/status/1184426687683055617
источник
DL in NLP
Deep learning отнимает работу там, где никто не ожидал. DeepMind применил нейросетки для восстановления текстов на древнегреческом. Error rate их системы: 30%. С одной стороны - это много, а с другой стороны, error rate профессионального эпиграфиста (да, есть целая профессия, которая посвящена таким задачам) - 57%.

Restoring ancient text using deep learning: a case study on Greek epigraphy
Assael et al. DeepMind
arxiv.org/abs/1910.06262

блог: deepmind.com/research/publications/Restoring-ancient-text-using-deep-learning-a-case-study-on-Greek-epigraphy
источник
DL in NLP
источник
DL in NLP
Ещё тут facebook показывает свои свежие результаты по низкоресурсному машинному переводу.

We’ve developed a novel approach that combines several methods, including iterative back-translation and self-training with noisy channel decoding, to build the best-performing English-Burmese MT system (+8 BLEU points over the second-best team).

We’ve also developed a state-of-the-art approach for better filtering of noisy parallel data from public websites with our LASER toolkit. … first place for the shared task on corpus filtering for low-resource languages of Sinhala and Nepali at WMT 2019.

В общем на удивление LASER не забыли и нашли ему интересное применение. Кстати ещё в блоге есть неплохие анимации, показывающие их подход. Советую посмотреть.

ai.facebook.com/blog/recent-advances-in-low-resource-machine-translation
источник
2019 October 18
DL in NLP
Быстрый T-SNE - это то, чего сильно не хватало, когда мы игрались с визуализацией эмбеддингов. Обходит реализацию sklearn на порядки.

https://twitter.com/altsoph/status/1184771151916126208
источник
DL in NLP
И появился мультиязычный QA-датасет. 7 языков, русского нет (en, de, es, ar, zh, vi, hi). По аналогии с XNLI в нём только dev и test-сеты, но хотя бы так. Facebook делает ставку на мультиязычные модели.

датасет: github.com/facebookresearch/MLQA
статья: arxiv.org/abs/1910.07475
источник
DL in NLP
источник
DL in NLP
И интересная статья от Quanta Magazine с обзором всего того, что сейчас происходит в NLP. GLUE, BERT и сломанные датасеты. Очень советую почитать.

отрывок:
“As BERT-based neural networks have taken benchmarks like GLUE by storm, new evaluation methods have emerged that seem to paint these powerful NLP systems as computational versions of Clever Hans, the early 20th-century horse who seemed smart enough to do arithmetic, but who was actually just following unconscious cues from his trainer.”

www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017
источник
DL in NLP
Когда TF выходил, было много разговоров про то, что в нём графы исполняются умно и оптимизируются на этапе компиляции. На практике это оказалось не совсем так, но теперь Стенфорд показывает новый метод оптимизации вычислительного графа, который заметно обходит стандартные rule-based подходы.

Поддерживает TensorFlow и ONNX (который по сути стандарт для экспорта PyTorch-графов в статические). Обещают ускорение от 10 до 300% относительно оптимизатора TensorRT.

twitter.com/matei_zaharia/status/1185104766583619584

github: github.com/jiazhihao/taso
источник
DL in NLP
источник
2019 October 21
DL in NLP
The Illustrated GPT-2 (Visualizing Transformer Language Models)
jalammar.github.io/illustrated-gpt2

Новый пост в блоге Jay Alammar (The Illustrated Transformer), рассказывающий о языковых моделях и GPT. Как всегда, много отличных картинок. Всем читать.
источник
DL in NLP
источник
2019 October 22
DL in NLP
источник
DL in NLP
И хороший пост из подборки Рудера:

Основные проблемы transfer learning в NLP

mohammadkhalifa.github.io/2019/09/06/Issues-With-Transfer-Learning-in-NLP/
источник
DL in NLP
How the Transformers broke NLP leaderboards

Одна из проблем: лидерборды сломаны и топовые модели не делают значительного вклада и вообще всё это попахивает переобучением

hackingsemantics.xyz/2019/leaderboards
источник