Телеграмм чат группы dlinnlp страница 35

NLP highlights for the year 2019.

Summary всего NLP за 2019 год.
Читать всем обязательно.
https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19

Medium

NLP Year in Review — 2019

223113:43пожаловаться #1

10 ML & NLP Research Highlights of 2019

Астрологи объявили неделю мастридов!

Ещё один блогпост (на этот раз от Рудера) с 10-ю наиболее интересными (по его мнению) направлениями исследований в ML & NLP.
Тоже обязательно к прочтению.
https://ruder.io/research-highlights-2019/

Sebastian Ruder

This post gathers ten ML and NLP research directions that I found exciting and impactful in 2019.

250217:20пожаловаться #2

2020 January 07

Нужно больше статей по трансформерам

towardsdatascience.com/transformers-at-neurips-2019-3c8e76e3ab42

Medium

Transformers at NeurIPS 2019

174623:27пожаловаться #3

2020 January 09

Efficient Transformer with locality-sensitive hashing and reversible layers

Reformer: The Efficient Transformer
Kitaev et al. [Google]
openreview.net/forum?id=rkgNKkHtvB

Улучшение асимптотик трансформера (и памяти и времени) до логлинейных. Авторы смогли добиться этого с помощью хитрого хеширования и расчёта только кусков attention-матрицы плюс идеи reversible residual networks, которая позволяет делать хитрый backward-pass, занимающий меньше памяти. Идея пока не очень применимая, потому что начинает обходить трансформеры по скорости только при длинах > 2K, но во-первых такие задачи вполне существуют в этом мире, а во-вторых, кажется, мы начинаем выкарабкиваться от ограничения на 512 токенов, что хорошо.
В статье очень хороший анализ того, как работает dot-product attention и что в нём можно улучшить, советую к прочтению.

Ещё хочу добавить: нет смысла надеяться, что топовые модели в этом году будут требовать меньше вычислений. Так не бывает, SOTA почти всегда находится на грани вычислительных возможностей. Но подобные этой статьи позволят использовать более ёмкие модели при +- тех же ресурсах, что в общем неплохо. Остаётся ждать, когда 1080Ti будут сопоставимы по стоимости с чашкой кофе и воткнуты в Raspberry PI (на самом деле нет).

OpenReview

Reformer: The Efficient Transformer

332300:18пожаловаться #4

160900:18пожаловаться #5

180200:18пожаловаться #6

2020 January 10

Bonjour everyone 🇫🇷!
Сегодня будет день французских моделей. +- недавно вышло две таких: CamamBERT и FlauBERT. В них нет каких-то особенно новых идей, и они очень похожи друг на друга (даже на прикладных задачах разница около 0.1%). Собственностью своей похожестью они и интересны - по сути это подытоживание того, к чему сошлось сообщество в 2019. Нам нужны:
1. трансформер (маленький и большой)
1. MLM (без NSP)
1. ~ 100Гб максимально разнообразных и подчищенных текстов
1. динамическое маскирование токенов
1. маскирование слов, а не сабтокенов (CamamBERT и я за это) / предварительная moses-токенизация за которой следует BPE (FlauBERT)
1. 32 V100, 8K batch size, 500 часов 😭

Сами статьи прелагаю считать руководством по предтренировке хорошей модели для NLP: там неплохо суммаризированы best practices и описан сбор данных, оптимизация, тестирование.

176221:36пожаловаться #7

164521:36пожаловаться #8

2020 January 12

Увидел в лагере CV новую интересную штуку

Neural Data Server - сервис, позволяющий найти релевантные для вашего домена изображения, на которых можно предтренироваться.

+ в сервисе умные способы семплирования, которые позволяют предобучаться на меньшем количестве данных и получать лучшие результаты
- индексируются только несколько популярных датасетов, которые и так все знают (может измениться со временем)

Несколько беспокоит не приведёт ли такая парадигма к худшей генерализации и было бы интересно провести несколько экспериментов тестирующих свойства таких моделей.

Однако, очень хотелось бы увидеть что-то подобное для текстов - огромную коллекцию размеченных и ещё большую коллекцию неразмеченных данных, по которым можно автоматически на основе ваших данных скачать пачку релевантных размеченных данных и in-domain неразмеченных. В особенности это интересно с учётом того, что неразмеченные данные - это, по-сути весь интернет и серверу достаточно отдать вам скрипт для скачивания с кучей ссылок и не обязательно пропускать все эти сотни гигабайт через себя.

162420:11пожаловаться #9

147220:11пожаловаться #10

И ещё немного про CV. Всегда приятно сказать “твоя модель - это частный случай моей модели”, и исследователи из Ecole Polytechnique доказали, что CNN - это частный случай Multihead Self-Attention. Ещё у них есть забавный сайт, на котором можно поиграться с визуализациями.

Статья: arxiv.org/abs/1911.03584
TL;DR от автора: twitter.com/jb_cordonnier/status/1215581826187743232
Блогпост: jbcordonnier.com/posts/attention-cnn

Very happy to share our latest work accepted at #ICRL2020: we prove that a Self-Attention layer can express any CNN layer. 1/5 📄Paper: https://t.co/Cm61A3PWRA 🍿Interactive website : https://t.co/FTpThM3BQc 🖥Code: https://t.co/xSfmFCy0U2 📝Blog: https://t.co/3bp59RfAcj https://t.co/X1rNS1JvPt

Jean-Baptiste Cordonnier

211920:23пожаловаться #11

Modeling Sequences with Quantum States: A Look Under the Hood
Bradley et al.
arxiv.org/abs/1910.07425

Кажется, эта статья написана специально для меня. В ней есть:
1. нейросетевое моделирование последовательностей
1. квантовая механика
1. тензорные сети

Основная идея: почему бы вместо моделирования вероятностного распределения нам не моделировать волновую функцию?
Гипотетически, такой подход может помочь решить проблему генерации более осмысленных длинных текстов или видео, где на каждом шаге очень много возможных исходов и прямое выучивание распределения “замыливает” предсказания и делает их более generic (например, когда end-to-end бот всегда отвечает вам “не знаю”).

Чтение статьи не требует знания квантмеха, все нужные понятия есть во введении, но её нужно читать медленно и вдумчиво.

198120:43пожаловаться #12

198420:43пожаловаться #13

2020 January 15

💥 Fast State-of-the-Art Tokenizers optimized for Research and Production - huggingface/tokenizers

Я знаю, что вы любите 🤗, держите ещё одну библиотеку от них - Tokenizers. И это не просто разделитель строк, это целый пайплайн, отвечающий в том числе за нормализацию, нумерикализацю, алайнмент токенов со словами, паддинг итд. Предобработка - это дичайшая боль в NLP, если Tokenizers сможет повторить успех Transformers, то это претендент на главное событие 2020 для меня.

GitHub

huggingface/tokenizers

171919:54пожаловаться #14

В DL завезли differentiable symbolic reasoning. Если это реально то, что заявлено в заголовке, то вангую много неросетей которые смогут разумнее, чем рефлекторно реагировать на input в этом году (но звучит слишком хорошо, чтобы быть правдой, да ещё это и на TF 1.X 👵 и задача специфичная). В любом случае интересно наблюдать на прогрессом в этой областе, которая традиционно считается максимально ненейросетевой.

Our #AAAI2020 paper "Differentiable Reasoning on Large Knowledge Bases and Natural Language" is online! https://t.co/ugS9jrVLNG -- Together with an open-source neuro-symbolic reasoning framework, in TF: https://t.co/EJ4ntpDvju, w/ @backprop2seed @_rockt @riedelcastro @egrefen

Pasquale Minervini

173221:14пожаловаться #15

2020 January 16

An open source deep learning platform that provides a seamless path from research prototyping to production deployment.

Вышли PyTorch 1.4 и torchtext 0.5 но ничего интересного там нету 😔

Улучшили квантизацию, сделали синтаксический сахар для model-parallel distributed (У новой модели фейсбука один батч не помещается в 32Гб V100?), позволили чейнить LR scheduler (использовать несколько в параллель), расширяют поддержку NamedTensor. Скучно, но может быть это показывает что наш PyTorch вырос и ему всё интереснее в продакшн.

В Torchtext завезли новую экспериментальную абстракцию, которая понятнее Field и лучше совместима с torch.data. В общем хорошо, но кажется, что 🤗 Tokenizers почти всё это уже умеют и делают лучше.

Blog: https://pytorch.org/blog/pytorch-1-dot-4-released-and-domain-libraries-updated/
GitHub: https://github.com/pytorch/pytorch/releases/tag/v1.4.0

pytorch.org

168308:17пожаловаться #16

Трэд Thomas Wolf о том, как надо релизить ваш исследовательскиий код и зачем это вообще нужно делать.

Мега важная тема, потому что всем, кто программирует, нужно осознавать, что код, который невозможно прочитать и модифицировать хуже кода, который не работает.

Если коротко:
Ваш код - это не просто доказательство того, что вы не придумали цифры в статье. Это возможность позволить другим переиспользовать ваши идеи. Дайте другим понятные инструкции как запускать ваш код и релизьте веса обученных моделей. Предоставьте возможность быстро тестировать/дебажить. Используйте меньше абстракций наболело. Потратьте ~4 дня на доработку кода после сабмита статьи.

От себя хочу добавить, что если ваш код удобен для модификации другими людьми, то это позволит вашим сследованиям сделать больший impact (а мы впедь ради этого ими и занимаемся, верно?). В конце-концов это позволит вам получить больше цитирований, а другим - меньше страдать. Win-win situation.

I often meet research scientists interested in open-sourcing their code/research and asking for advice. Here is a thread for you. First: why should you open-source models along with your paper? Because science is a virtuous circle of knowledge sharing not a zero-sum competition

Thomas Wolf

188917:07пожаловаться #17

Новый запуск курса по NLP от CMU

twitter.com/gneubig/status/1217458527016538115

За ссылку спасибо @someotherusername

I've started to upload the videos for the Neural Nets for NLP class here: https://t.co/H1jHhqwTWz We'll be uploading the videos regularly throughout the rest of the semester, so please follow the playlist if you're interested. https://t.co/aYA0drnKiP

Graham Neubig

234322:10пожаловаться #18

2020 January 20

How nbdev helps us structure our data science workflow in Jupyter Notebooks

Очередной сет ссылок на интересные штуки:

1. How nbdev helps us structure our data science workflow in Jupyter Notebooks - первые success story применения nbdev
1. fast_template - очень простой способ сделать себе бложик (куда сейчас в науке без личного блога?)
1. “50 best datasets” - опустим что же может означать слово “best” в смысле датасета, в принципе неплохая подборка, в особенности если вы только начинаете свой путь в DS
1. WAYR (What Are You Reading) - серия постов на реддите, где в комментариях люди пишут какие статьи они сейчас читают, идёт уже 78 недель
1. JAX (~ NumPy + autodiff + возможность компиляции в XLA + GPU/TPU) как-то пока что проходит мимо меня, но вокруг него уже начинают появляться обёртки для диплёрнинга.

Medium

Jupyter notebooks have been rightly praised for making it very easy and intuitive to experiment with code, visualize results and describe…

181221:45пожаловаться #19

2020 January 21

When Does Label Smoothing Help?
Müller et al. Google Brain
arxiv.org/abs/1906.02629

Как можно угадать из названия, это анализ того, как работает Label Smoothing.

TL;DR
In addition to improving generalization, label smoothing improves model calibration which can significantly improve beam-search. However, we also observe that if a teacher network is trained with label smoothing, knowledge distillation into a student network is much less effective. Label smoothing encourages the representations of training examples from the same class to group in tight clusters.