Size: a a a

2020 May 18
DL in NLP
DeepMind постит у себя в твитере рекомендации от их рисёчеров на почитать

Из интересного нашёл:
1. d2l.ai - книга по DL с примерами кода на вообще всё. Вот главы про attention и transformer для примера (осторожно MXNet)
1. The Scientist in the Crib - научпоп книжка о том как люди (очень маленькие люди) учатся и чему это может научить нас
1. Лекция про bias на NIPS 2017
1. Ещё лекция: 21 definitions of fairness and their politics
1. Курс MIT Introduction to Deep Learning - на мой взгляд слишком поверхностный, но есть весёлые домашки
1. Внезапно, курс о том, как деплоить модельки - очень советую всем джунам да и не только смотреть в эту область более пристально. Это сложная тема.

Всё тут не опишу, лучше следите за DeepMind в твиттере и за хештегом #AtHomeWithAI.
источник
2020 May 21
DL in NLP
Accelerate your NLP pipelines using Hugging Face Transformers and ONNX Runtime
🤗 + ONNX = ❤️
You can now use ONNX Runtime and Hugging Face Transformers together to improve the experience of training and deploying NLP models. 
источник
2020 May 22
DL in NLP
Интересные штуки

1. Movement Pruning - метод прунинга в pretrain-finetute-парадигме, вместо того, чтобы убирать веса с маленькими значениями даавайте убирать веса, которые меньше всего изменились при файнтюнинге (статья). А ещё я удивился, что Rush теперь в 🤗
1. Выпуск подкаста twiml.ai на тему Is Linguistics Missing from NLP Research

Раздел для самых маленьких:
1. Learn Git and GitHub in 20 Minutes - не перестаю удивляться как мало людей в research-community умеют в гитхаб
1. DeepMind рекомендует учить линейную алгебру
источник
DL in NLP
Если кому-то нравится датакамп
источник
DL in NLP
Переслано от Ivan Shishov
На Datacamp’е (datacamp.com) ещё 10 часов открыта регистрация на бесплатную неделю  (есть несколько курсов по NLP, но формат - добавь несколько строчек кода - тут не очень работает, на мой взгляд, зато очень много других вкусняшек)
источник
DL in NLP
Тут в дружественном канале довольно подробно описали соврменные неавторегрессионные модели. Советуем к прочтению.
источник
DL in NLP
В нескольких последующих постах выложу обзор статей о современных  неавторегрессионных моделях генерации текста -- т.е. моделей, предлагающих генерировать текст не по одному токену слева направо, а как-то иначе, более хитрым образом. Подробно опишу пять статей на этот счёт, ещё пару упомяну. Изложение будет в хронологической последовательности, и сложность моделей будет постепенно нарастать.
источник
2020 May 23
DL in NLP
Реформер в 🤗 , дождались.
тык
источник
2020 May 26
DL in NLP
О штуках, которые заинтересовали в начале этой недели

1. Критика использования beam search для машинного перевода. Показывают, что он искривляет распределение n-gram и возможно именно он - причина артефактов машинного перевода которые мы уже затрагивали (e.g.  мультиязычные датасаты). Также предлагают байесовский метод семплирования, который получает и высокий BLEU (как beam search) и сохраняет распределения (как обычное семплирование).

1. Parallax - Immutable Torch Modules for JAX
Если вы не знаете что такое JAX, возможно и не узнаете. Потому что несмотря на интересные идеи, где в numpy-like синтаксисе вы пишете код, который просто работает на CPU/GPU/TPU, в нём нету удобного и привичного интерфейса а-ля nn.Module. Parallax - это попытка на коленке сделать его.

И для самых маленьких:
1. Как организовывать рисёч-код
источник
2020 May 28
DL in NLP
🤗 NLP Viewer

Простенький view датасетов, где можно посмотреть как они выглядят. Пока что не работает с большими датасетами, по-моему это важный косяк, который нужно исправлять - как раз для них и было бы очень полезно посмотреть на внутренности без необходимости скачивания десятков гигабайт.
источник
DL in NLP
источник
DL in NLP
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Lewis et al. [Facebook]
arxiv.org/abs/2005.11401

Новая open domain question answering моделька от фейсбука мёржит seq2seq подход (T5/BART) с графами знаний. Мне почему-то такой подход кажется одновременно и очень практически полезным и несколько тупиковым, но всё равно интересным.

Основная идея: (предтренированный) attention учится искать по индексу документов, а (предтренированный) генератор обуславливается на то, что нашли. Всё файнтюнится end-to-end.
источник
DL in NLP
источник
2020 May 29
DL in NLP
Подвезли GPT-3
175 B параметров!
завтра подробно разберём

twitter.com/arankomatsuzaki/status/1266172138773307392
источник
DL in NLP
Language Models are Few-Shot Learners
Brown, Mann, Ryder, Subbiah et al. [OpenAI]
arxiv.org/abs/2005.14165

Очевидный результат, про который все и так будут говорить - натренировали модель в 175B параметров. Для сравнения, в BERT large 340M, а в GPT2 - 1.5B. Генерит ещё более правдоподобные тексты, которые люди уже не могут отличить от настоящих (accuracy 52%), даже не смотря на то, что они тратят больше времени на ответ, чем с маленькими моделями (на ~20% больше относительно 1B).

А теперь про неочевидные результаты. Мы знаем, что языковые модели могут решать прикладные задачи без обучения. Однако для адекватного качества нужны очень большие модели (возможно, в тысячи раз больше GPT-3). Новые результаты показывают, что в few-shot сеттинге метрика от размера модели растёт несколько быстрее. Получается, LM с увеличеннием размера (модели и датасета) не только учат common sence, но и учатся быстрее генерализовывать по нескольким примерам. Также интересно то, что в статье имеется в виду под few-shot - это не обучение/файнтюнинг модели, в том виде, как мы привыкли. Это просто подача текста вида "x1 : y1, x2:y2, x3: ", где вся небольшая "обучающая выборка" подаётся на вход модели и она должна продолжить её. Такой подход позволил получить SOTA на TriviaQA (настоящий SOTA, в сравнении с моделями обученными на всём датасете) и в срееднем результаты не хуже зафайтнюненого BERT Large.

Но есть одно но. 175B параметров - это 700Гб (350Гб в fp16), так что скорее всего она не поместится в твою *080Ti ещё лет так 5.

Статья очень большая и интересная, советую заглянуть в секцию results, чтобы посмотреть на них подробнее или хотя бы глянуть графики.

Также зарилизили репозиторий, но в нём ничего полезного нет
источник
DL in NLP
стих, сочинённый GPT-3
источник
DL in NLP
While zero-shot performance improves steadily with model size, few-shot performance increases more rapidly, demonstrating that larger models are more proficient at in-context learning.
источник
DL in NLP
Результаты на SuperGLUE, всего с 32 примерами на задачу (всего 256 примеров) GPT-3 бьёт BERT Large, обученный на 125 000 примеров.
источник
DL in NLP
Подробный разбор GPT-3 🔼
источник
2020 May 30
DL in NLP
Переслано от Michael Pavlukhin
источник