Size: a a a

2020 March 02
DL in NLP
Пример использования PyTorch TPU для NER (сам код по ссылке на гитхабе, в колабе только вызывалка этого).
Всё ещё выглядит кривовато, но в прошлом году на подъём всего окружения нужно было потратить больше часа, а теперь всё работает за пару минут, так что советую почитать код и запустить колаб.

Интересно, что Lightning уже поддерживает TPU в две строчки:
 1. При создании Trainer указать num_tpu_cores
 1. Делать шаг оптимизатора с помощью torch_xla.core.xla_model.optimizer_step(optimizer) вместо обычного optimizer.step()

twitter.com/srush_nlp/status/1233161898268467206
источник
DL in NLP
Наткнулся на блогпост к уже довольно старой статье (How Does Batch Normalization Help Optimization? Santurkar et al., 2018). В посте довольно хорошо описывается интуиция за статьёй. Немножко матана прилагается - всё как вы любите.

И почему эта статья вообще важная: она показывает, что наша интуиция иногда ведёт к неправильным выводам и нужно всегда её проверять.

blog.paperspace.com/busting-the-myths-about-batch-normalization
источник
DL in NLP
Deep Learning Memory Usage and Pytorch Optimization Tricks
www.sicara.ai/blog/2019-28-10-deep-learning-memory-usage-and-pytorch-optimization-tricks

Хороший пост как для новичков, так и для тех, кто уже немножко погружён в DL. Рассказывает о том, почему нейросетки (конкретно бэкпроп) потребляют столько памяти и как с этим жить.
источник
2020 March 03
DL in NLP
NLP newsletter #6

medium
источник
2020 March 06
DL in NLP
🔥 пост с обзором на ряд недавних NLP публикаций
Тык
источник
DL in NLP
Automatically Neutralizing Subjective Bias in Text
Pryzant et al.
arxiv.org/abs/1911.09709

Забавная новая задача повышения объективности текста. Датасет намайнили из правок Википедии, в качестве модельки используют систему из двух моделей: BERT детектирует субъективные выражения, а LSTM их исправляет.

Интересно, что будет, если применить эту модель к моей ленте твиттера.
источник
DL in NLP
источник
2020 March 09
DL in NLP
Отличная презентация от 🤗 с обзором современных трендов и проблем в NLP.

Тык
источник
2020 March 13
DL in NLP
Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping
Dodge et al.
arxiv.org/abs/2002.06305

Мы с другом шутили, что random seed - это тоже гиперпараметр. Ещё никогда мы не были так правы.

Взяв обычный BERT и правильно подобрав random seed (на valid) можно получить результаты лучше, чем у RoBERTa, XLNet и др (на valid ???). Давайте допустиим, что авторы не просто переобучились (что вообще весьма вероятно - статьи с Архива такие статьи с Ахрива). Random seed определяет две важные вещи - инициализацию и порядок данных при обучении. Мы издревле знаем, что инициализация критически важна для нейросеток - если инициализируете из неправильного распределения может вообще не сойтись, а если из правильного - сможете обучить хоть CNN в 10 000 слоёв без skip-connection. По важности порядка данных гуглите curriculum learning. Также, если использовать seed только для инициализации, можно найти такие, которые будут трансфериться (показывать хорошие результататы) между датасетами, что забавно и даже логично.
источник
DL in NLP
источник
DL in NLP
источник
DL in NLP
Поиграем в демократию
Анонимный опрос
26%
Авторы заоверфитились
19%
Теперь я тоже буду добавлять random seed в перебор гиперпараметров
55%
Нужно больше экспериментов, чтобы всё это проверить
Проголосовало: 321
источник
DL in NLP
Introducing BART
Блогпост, рассказывающий о ещё одной бертоподобной модели и её интеграции в 🤗.

Если кто пропустил, в канале тоже был пост о ней.
источник
DL in NLP
На днях прошёл TF Dev Summit - главная конференция TensorFlow, на которой показывают новые фичи, а также то, чего добилось коммьюнити за последний год. Обычно, про него как-то мало пишут в новостях, поэтому давайте это исправим.

Записи всех выступлений доступны на офсайте, а очень короткое саммари из тех пунктов, которые заинтересовали меня можете почитать тут.
источник
2020 March 17
DL in NLP
A Survey of Long-Term Context in Transformers
pragmatic.ml/a-survey-of-methods-for-incorporating-long-term-context/

Хороший обзор статей, в которых пытаются работать с текстами длинее 512 токенов.

1. Sparse Transformers
1. Adaptive Span Transformers
1. Transformer-XL
1. Compressive Transformers
1. Reformer
1. Routing Transformer
источник
2020 March 18
DL in NLP
NLP Newsletter #7

Тык
источник
2020 March 20
DL in NLP
🤗 Awesome NLP Paper Discussions
github.com/huggingface/awesome-papers

"Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions below."
источник
2020 March 25
DL in NLP
Немножно разбавлю ваши ленты чем-нибудь не про вирус

1. Technical Writing Courses - два небольших (3 часа в сумме) курса по тому, как писать технические тексты. Должно быть полезно как для документации, так и для статей.
1. Читаем статьи за вас. Январь — Февраль 2020
1. How to generate text: using different decoding methods for language generation with Transformers - хороший пост с основными методами генерации текста и примерами кода (от beam search до nucleus sampling)
1. В Lightning добавили profiler
1. Pre-trained Models for Natural Language Processing: A Survey, Qiu et al - ещё одна обзорная статья по предтренировке в NLP

Сидите дома, читайте статьи, не болейте.
источник
2020 March 26
DL in NLP
Скорее всего в этом чате мало олдфагов, кто помнит, что именно Валя основал курс по NLP от iPavlov. Теперь он делает новый курс и вы всё ещё можете на него зарегистрироваться.
источник
DL in NLP
Переслано от Valentin Malykh
всем привет, вероятно, не все слышали, что Huawei Russian Research Institute проводит (онлайн) курс по обработке естественного языка (NLP); лучшим студентам курса будут выделены облачные мощности для выполнения заданий и проектов; на курсе прошло 4 занятия, но до сдачи первого задания еще две недели; записаться на курс и узнать больше можно тут: https://registerathuawei.timepad.ru/event/1269978/
источник