Телеграмм чат группы dlinnlp страница 45

Size: a a a

DL in NLP

2929 membersпожаловаться на группу

2020 June 02

DL in NLP

Новый релиз 🤗, теперь с лонгформером

https://github.com/huggingface/transformers/releases/tag/v2.11.0

GitHub

Release Longformer · huggingface/transformers

Longformer

Longformer (@ibeltagy)
Longformer for QA (@patil-suraj + @patrickvonplaten)
Longformer fast tokenizer (@patil-suraj)
Longformer for sequence classification (@patil-suraj)
Longformer for...

источник

168517:41пожаловаться #1

2020 June 03

DL in NLP

Переслано от b b

https://twitter.com/fhuszar/status/1268121824178642944

Twitter

Ferenc Huszár🇪🇺

I used a language model to predict the rest of 2020:

источник

219316:02пожаловаться #2

2020 June 05

DL in NLP

Cascaded Text Generation with Markov Transformers
Deng and Ruch [Harvard and Cornell]
arxiv.org/abs/2006.01112

Интересная статья про альтернативу Beam Search для генерации текста. Cascaded decoding можно видеть как что-то обобщающее неавторегрессионные и авторегрессионные модели. Генерация происходит в несколько шагов: в начале вы считаете скоры слов как для неавторегресионной модели (предсказываете весь перевод целеком) и отбрасываете совсем маловероятные слова. После чего для оставшихся слов вы считаете скоры для двуграм (авторегресионно внутри каждой двуграммы) и отбрасываете самые маловероятные, потом для 3-gram итд, пока не успокоитесь.
Для того, чтобы эффективно считать скоры для n-gram авторы также предлогают Markov Transformer. По сути вы просто запрещаете биграммам смотреть друг на друга. Думаю, что это можно написатть следующим образом rearrange(input, "bs (n_gram n) hid -> (bs n_gram) n hid", n_gram=4) без модификаций в архитектуре.
Результаты: сравнимо с beam search по качеству (если добавить pseudolabelling с поомщью регрессионной модели), но в 3 раза быстрее.

зарелижен код

GitHub

harvardnlp/cascaded-generation

Cascaded Text Generation with Markov Transformers. Contribute to harvardnlp/cascaded-generation development by creating an account on GitHub.

источник

163519:23пожаловаться #3

DL in NLP

А теперь хочется добавить критики и высказать свою боль по поводу зарелиженного кода.
Всё больше статей используют фреймворки не как фреймворки, а как часть кода. То есть, когда вы видете import fairseq это не тот fairseq, который можно получить по pip install, это папка fairseq в конкретно этом проекте, где изменены 3 файла. Какие именно? Смотри по коммитам. А fairseq весьма большой, так что удачи. И это становится ещё хуже - иногда так добавлен не один фреймфорк, а несколько. В результате зарелиженный код может быть и добавляет статье воспроизводимости, но reusability остаётся нулевой.

В таком формате может быть нормально проверять свои гипотезы и разрабатывать ранние версии моделей. Но релизить такой код - это как-то невежливо и некрасиво по отношению к комьюнити. Потратье пару дней после сабмита статьи на то, чтобы причесать ваш код и сделать его минимальным. Тот же fairseq можно не модифицировать, а расширять - просто дописывать свои классы в своих файлах, а потом подключать к ванильному fairseq с помощью параметра --user-dir. В результате размер вашего репозитория уменьшается в сотни раз, позволяя проще модифицировать и переиспользовать ваш код.
Если вы изобрели новую модель, которая делает что-то лучше остальных - позвольте другим использовать её простым и понятным образом. Это увеличит ваш impact, а impact - это ведь одна из главных причин, почему мы вообще занимаемся исследованями.

Помните, что вы пишете код один раз, а читаете его - десятки, а может быть и сотни раз. И не только вы.

источник

152719:40пожаловаться #4

DL in NLP

И ссылочка на тред Thomas Wolf по этой же теме.

http://twitter.com/Thom_Wolf/status/1216990543533821952

Twitter

Thomas Wolf

I often meet research scientists interested in open-sourcing their code/research and asking for advice. Here is a thread for you. First: why should you open-source models along with your paper? Because science is a virtuous circle of knowledge sharing not a zero-sum competition

источник

151819:41пожаловаться #5

DL in NLP

Ruder Newsletter #52

newsletter.ruder.io

Reviewing, Taking stock, Theme papers, Poisoning and stealing models, Multimodal generation

Hi all,This newsletter took somewhat longer than usual. This is both due to lower energy ⚡️on my side and because I've been struggling to do justice to all the awesome blog posts that many of you are publishing every month 💪.Overall, I've realized that trying to provide a comprehensive mix of everything that has been going on is not sustainable for me ♻️. So I'll try to refocus 🧘‍♂️ with this newsletter and to prioritize covering fewer things in-depth 🕳.Going forward, I'll only highlight a few th

источник

150622:00пожаловаться #6

2020 June 06

DL in NLP

When Can Self-Attention Be Replaced by Feed Forward Layers?
Zhang et al. [University of Edinburgh]
arxiv.org/abs/2005.13895

Авторы тестировались на задачке speech-to-text, так что результат не факт, что обобщается на тексты, но по их наблюденям, можно просто выкинуть attention из последних 1-2 слоёв и не только прибавить в скорости, но и получить небольшой буст в метриках. В качестве бейзлайна сравнились с уменьшение количества слоёв.

Моей первой мыслью было попробовать запустить машинный перевод и посмотреть, как оно зайдёт. Но если внимательнее посмотреть на результаты статьи, они не такие убедительные. Ошибка падает с 9 до 8.9 на одном датасете и 3.5 до 3.4 на другом. Плюс, недавно я узнал, что BERT (по крайней мере 🤗) при обучении (MLM) использует не просто Linear для предсказания слов, a Linear->activation->LayerNorm->Linear. Так что в некотором смысле результаты этой статьи уже известны.

источник

156820:31пожаловаться #7

DL in NLP

источник

158920:31пожаловаться #8

2020 June 07

DL in NLP

Machine Learning Street Talk OpenAI GPT-3: Language Models are Few-Shot Learners

YouTube

OpenAI GPT-3: Language Models are Few-Shot Learners

**ERRATA**: Open AI/GPT-3 DOES NOT USE Microsoft's ZeRO/DeepSpeed for training

Discord: https://discord.gg/4H8xxDF

In this episode of Machine Learning Street Talk, Tim Scarfe, Yannic Kilcher and Connor Shorten discuss their takeaways from OpenAI’s GPT-3 language model. OpenAI trained a 175 BILLION parameter autoregressive language model. The paper demonstrates how self-supervised language modelling at this scale can perform many downstream tasks without fine-tuning.

00:00:00 Intro
00:00:54 ZeRO1+2 (model + Data parallelism) [GPT-3 DOES *NOT* USE THIS] (Connor)
00:03:17 Recent history of NLP (Tim)
00:06:04 Yannic "Light-speed" Kilcher's brief overview of GPT-3
00:14:25 Reviewing Yannic's YT comments on his GPT-3 video (Tim)
00:20:26 Main show intro
00:23:03 Is GPT-3 reasoning?
00:28:15 Architecture discussion and autoregressive (GPT*) vs denoising autoencoder (BERT)
00:36:18 Utility of GPT-3 in industry
00:43:03 Can GPT-3 do math? (reasoning/system 1/system 2)
00:51:03 Generalisation
00:56:48 Esoterics of…

источник

179105:36пожаловаться #9

2020 June 08

DL in NLP

Моделька, которая переводит ваш код с одного языка программирования на другой (C++ <=> Java <=> Python). Без параллельной разметки для обучения. Использовали те же самые алгоритмы, которые применяются для unsupervised перевода в человеческих языках и они неплохо работают.
Забавно как сделали тестсет - набрали примеры алгоритмов на geeksforgeeks, там есть примеры имплементаций на разных языках.

подробнее в треде
twitter.com/GuillaumeLample/status/1269982022413570048

Twitter

Guillaume Lample

Unsupervised Translation of Programming Languages. Feed a model with Python, C++, and Java source code from GitHub, and it automatically learns to translate between the 3 languages in a fully unsupervised way. https://t.co/FpUL886KS7 with @MaLachaux @b_roziere @LowikChanussot

источник

335718:40пожаловаться #10

2020 June 10

DL in NLP

Переслано от Ridvan Shikzatov

Сдую пыль со старого поста про неумение в гит в ДС.
Пожалуй лучшее что видел на этот счет это видео Глеба Михайлова https://www.youtube.com/watch?v=0cGIiA0AjNw&t=1s
Совершенно годный контент, на мой взгляд, да еще и на русском

YouTube

GIT для Дата Саентиста

Посмотри видос и впиши git в свою жизнь. И в резюме).
ПОДДЕРЖАТЬ СОЗДАНИЕ ВИДОСОВ: https://www.glebmikhaylov.com/donate

0:07 Зачем учить git?
1:13 Интуитивное объяснение git
2:06 Когда вызывать компьютерного мастера?
4:43 Создаем репозиторий
7:38 Как переключаться между комитами?
8:42 Что такое git add?
11:47 Как удалить последний комит?
13:20 Когда делать комит?
13:54 Что такое branch?
16:57 Как сделать merge?
19:38 Что делает в git дата саентист?
22:01 Создаем репозиторий на github
23:04 Как залить код на github?
25:47 Что такое pull request?
28:48 Что такое git pull?
30:02 Что такое git fetch?
32:27 Что такое конфликт?
35:44 Что такое fork?
38:05 Кто придумал git?

Телега: https://t.me/mikhaylovgleb

источник

200401:40пожаловаться #11

DL in NLP

Linformer: Self-Attention with Linear Complexity

The authors prove that self-attention can be approximated by a low-rank matrix. This idea made it possible to develop a new self-attention architecture, which reduces the complexity of O(N^2) to O(N) in both time and space.

Authors decompose the original scaled dot-product attention into multiple smaller attentions through linear projections, such that the combination of these operations forms a low-rank factorization of the original attention.

Also, they suggest a number of additional efficiency techniques:
– Parameter sharing between projections: Headwise, layerwise or key-value sharing
– Nonuniform projected dimension. It could be efficient to set lower projection dimension for higher levels
– General projections. Some different kind of projection instead of linear - pooling or convolution with kernel n and stride k

For experiments, they use RoBERTa and train it on 64 Tesla V100 GPUs with 250k updates.

Authors show that models reach almost the same validation perplexity as in a transformer, while inference is much faster and requires less memory.

Paper: https://arxiv.org/abs/2006.04768

#deeplearning #attention #transformer #efficience #memoryoptimization #inferencespeed

источник

17320:39пожаловаться #12

DL in NLP

Полная версия обзора в ODS от @Erlemar.
тык

источник

169620:41пожаловаться #13

2020 June 11

DL in NLP

Переслано от Tari

Вышел Russian SuperGLUE!
Лидерборд : http://russiansuperglue.com
Код: https://github.com/RussianNLP/RussianSuperGLUE

Чтобы правильно оценивать русскоязычные языковые модели, такие как популярные сейчас BERT, RoBERTa, XLNet и т.д., нужно иметь какие-то объективные метрики. Подходов, как это делать, не так много, а для русского языка их не было. Представлен Russian SuperGLUE - бенчмарк для задачи общего понимания языка (General Language Understanding) и дальнейшего развития моделей на русском.

Набор новых задач для оценки моделей:
1. LiDiRus (Linguistic Diagnostic for Russian) или просто общая диагностика — её мы полностью адаптировали с английского варианта.
2. DaNetQA — набор вопросов на здравый смысл и знание, с да-нет ответом.
3. RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него.
4. PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла.
5. MuSeRC (Multi-Sentence Reading Comprehension) — машинное чтение. Задания содержат текст и вопрос к нему, но такой, на который можно ответить, сделав вывод из текста.
6. RuCoS (Russian reading comprehension with Commonsense) — тоже задача на машинное чтение. Модели даётся новостной текст, а также его краткое содержание с пропуском — пропуск нужно восстановить, выбрав из вариантов.
7. TERRa (Textual Entailment Recognition for Russian) — классификация причинно-следственных связей между предложениями (собрали с нуля по новостям и худлиту).
8. RUSSE (Russian Semantic Evaluation) — задача распознавания смысла слова в контексте (word sense disambiguation). Взят из RUSSE
9. RWSD (Russian Winograd Schema Dataset) — задания на логику, с добавленными неоднозначностями («Если бы у Ивана был осёл, он бы его бил»). Создан по аналогии с Winograd Schema.

Разработчики и энтузиасты приглашаются представить свои модели на лидерборде!

Пост на habr https://habr.com/ru/company/sberbank/blog/506058/

источник

236717:15пожаловаться #14

2020 June 13

DL in NLP

API OpenAI

Очень странная штука, но выглядит забавно.

openai.com/blog/openai-api/

OpenAI

OpenAI API

We’re releasing an API for accessing new AI models developed by OpenAI. Unlike most AI systems which are designed for one use-case, the API today provides a general-purpose “text in, text out” interface, allowing users to try it on virtually any English language task. You can now request access

источник

179900:21пожаловаться #15

DL in NLP

Optimizing Data usage via Differentiable Rewards
Wang, Pham et al. [CMU and Google Brain]
arxiv.org/abs/1911.10088

Идея: разнные данные по-разному полезны, давайте натренируем RL агента выбирать те, которые уменьшают лосс на dev-сете сильнее всего
Предположение: dev больше похож на test, чем train
Кому это надо: да почти всем, у кого плохое качество разметки. Вы размечаете свой большой train как можете, а dev очень-очень аккуратно (например, сами или требуете более высокий overlap от разметчиков)
Конкретный сигнал на обучение агента: похожесть градиента датапоинта на градииент на dev-сете.

Экспериментировали на классификации изображений и на низкоресурсном машинном переводе. Переводили с азейбайджанского, белорусского, галисийского и словацкого на английский. Тренировались на датасете из турецкого, русского, португальского и чешского, а низкоресурсные использовали в качестве dev. В среднем их метод добавляет меньше 0.5 BLEU, но когда ваш BLEU = 11, это довольно много.

источник

224220:20пожаловаться #16

DL in NLP

источник

172820:20пожаловаться #17

DL in NLP

источник

167020:20пожаловаться #18

DL in NLP

The Level 3 AI Assistant Conference
June 18, 2020 | Online
www.l3-ai.dev

Бесплатная конфа по Conversational AI. Из интересных для меня докладов нашёл:
1. Testing: The Art of Challenging Chatbots, Botium
1. Designing Practical NLP Solutions, Explosion.ai (создатели spaCy)
1. From Research to Production – Our Process at Rasa, Rasa
1. Distilling BERT, Rasa
1. Current Research in Conversational AI, много спикеров включая Rachael Tatman, Thomas Wolf и Anna Rogers
1. Google's Meena: Open Dialog systems, Google

Выглядит неплохо, надо регистрироваться.

источник

193820:40пожаловаться #19

DL in NLP

dlinnlp

API OpenAI

Очень странная штука, но выглядит забавно.

openai.com/blog/openai-api/

OpenAI

OpenAI API

UPD по OpenAI API.

Много кто, включая меня, решили что это какая-то непонятная замена вашему любимому zsh. Это не так, это API по всем тем моделькам, которые не помещаются на вашу GPU. Replika уже внедрила GPT-3 к себе в прод и получили заметный скачок в метриках (см график).
Вы тоже можете запросить доступ в бету для своего продукта / рисёча.

Обсуждение в ODS с разрабами из реплики.

источник

293421:03пожаловаться #20