Телеграмм чат группы dlinnlp страница 55

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

DL in NLP

3101 membersпожаловаться на группу

1
«
…
‹
50
51
52
53
54
55
56
›
…
»

2021 April 05

Do sequence-to-sequence VAEs learn global features of sentences?
Bosc and Vincent, [MILA]
arxiv.org/abs/2004.07683

Короткий ответ на вопрос из заголовка: нет.
А теперь подбробнее. В NLP принятно считать, что если вы делаете автокодировщик, сжимающий ваше предложение в один вектор, а потом разжимающий его обратно, но лучше использовать VAE. Интуитивно это выходит из того, что дополнительная регуляризация в ELBo и семплирование из пространства латентных переменных позволят сделать вектора, лучше описывающие глобальные фичи предложения.

Авторы этой статьи показывают противоречащие этой интуиции результаты. Они показывают, что VAE склонны запоминать только первые несколько слов, а дальше пологаться на то, что декодер сможет правильно угадать остальные. Возможно, это в том числе следует из хака под названием free bits, который борется с локальным минимумом VAE, когда KL-tem равен нулю и модель просто производит шум и ничего не учит.

В конце статьи они предлагают исспользовать альтернативные энкодеры (Bag of Words (BoW) или предобученную LM с фиксированными весами) и альтарнативный декодер, который довольно хитрый и если я правильно понял, предсказывает BoW-вероятности слов предложения. На некоторых датасетах по классификации эти варианты улучшают F меру вплоть до 5 пунктов по сравнению с обычным VAE, это намекает на то, что BoW заметно улучшает представления VAE, а ещё точнее показывает, что VAE настолько плохо учит фичи, что даже BoW может быть лучше.

источник

138319:30пожаловаться #1

А для тех, кто ничего не понял из прошлого поста (не бескойтесь, вы неодиноки и вас много), я покидаю хорошие материалы по погружению в VAE для NLP.

1. Must read: VI туториал от Wilker Aziz и Phil Schulz: github.com/vitutorial/VITutorial
1. Оригинальная статья по VAE для NLP: Generating Sentences from a Continuous Space
1. Не самый ужасный код: github.com/rohithreddy024/VAE-Text-Generation
1. Berkeley, Unsupervised DL, Latent Variable Models

источник

144219:42пожаловаться #2

На выходных делал небольшой pet-project. Реимплементировал Learning Neural Network Subspaces. Держите поиграться, пишите про баги в комментариях.

gist.github.com/Guitaricet/cbad86efe1a919ef79cfb8814aa1f10b

источник

143322:36пожаловаться #3

2021 April 07

Давно у нас не было постов вида "держите кучу ссылок"

1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.

PyTorch 101: An Applied Tutorial - YouTube

источник

156918:46пожаловаться #4

источник

125618:47пожаловаться #5

2021 April 09

Revisiting Simple Neural Probabilistic Language Models
Sun and Iyyer [UMass Amherst]
arxiv.org/abs/2104.03474

Помните на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.

В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании 🤯

Кажется, мне нужно будет переделать пару слайдов...

источник

86204:25пожаловаться #6

2021 April 12

Неделя начинается с NVIDIA GTC, блогпостов по prompt enginering и рассуждений на тему того, почему 🔥 лучше 💩

1. NVIDIA GTC 2021 — бесплатная конфа, много интересных спикеров начиная с Hinton, Bengio, LeCun и продолжая более локальными коммьютини, например Lightning и DeepPavlov там тоже будут
1. How many data points is a prompt worth? — от 100 до 3000, если верить 🤗
1. How usability improves performance in PyTorch
1. Блогпост на тему Approximating How Single-Head Attention Learns; статью мы недавно обозревали в канале
1. Интересный взгляд на ADAM от Tim Dettmers: по сути это такой фильтр Калмана для градиентов
1. PyTorch in Tesla — чтобы вы потом могли ответить, а где его используют в проде
1. Efficient Large-Scale Language Model Training on GPU Clusters — про то, как тяжело жить, когда у вас 3 тысячи GPU

NVIDIA GTC 2021 Conference Keynote

Save the date. Watch NVIDIA CEO Jensen Huang present the keynote at GTC 2021.

источник

120020:36пожаловаться #7

2021 April 20

Generating Datasets with Pretrained Language Models
Schick and Schütze, [LMU Munich]
arxiv.org/abs/2104.07540

У нас есть классные генеративные языковые модели, которые могут решать (с каким-то качеством) любые NLP задачи. Но такие большие модели и в прод их не покатишь. Очевидным решением будет использовать такие модели для грязной разметки ваших данных — придумать несклько примеров и устроить few-show классификацию с помощью GPT-2/3. Schick and Schütze пошли дальше и предлагают геренировать не только лейблы, но и примеры. После чего обучать на этом модельку. К сожалению делают это только для задачи semantic similarity (было бы интересно посмотреть на NER), но результаты очень неплохи. Их моделька обходит InferSent, USE, SentenceBERT/SentenceRoBERTa на 7 датасетах.

источник

134118:58пожаловаться #8

Пачка ссылок:

1. ADAPET — новый метод few-shot learning основанный на GPT-2/3 и prompts. Обходит PET и iPET без дополнительных даннных.
1. Scaling up BERT-like model Inference on modern CPU - Part 1
1. Controllable Text Generation — презентация PhD-диссера
1. 🤗 Accelerate — единая обёртка для CPU/GPU/distributed/TPU. Поделитесь в группе впечатлениями, кто уже пробовал.
1. How to Train BERT with an Academic Budget — TL;DR используйте LARGE вместо BASE, maxlen=128 и DeepSpeed.
1. XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation — более экстремальная эвалюация мультизяычных моделек, плюс овервью текущего состояния этой области. Тепрь включает и аналог Checklist

Hugging Face – The AI community building the future.

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

источник

102219:31пожаловаться #9

2021 April 21

Pattern-exploiting training

Сегодня на reading group презентовал маленький обзор по методам, использующим prompts. GPT-3, PET, iPET, ADAPET, LM-BFF, p-tuning. Получилось нелпохо, держите посмотреть, не стесняйтесь что-то спрашивать в чате.

https://docs.google.com/presentation/d/1b59JIrBdIhwbz1A3yzQ_c2Rexte4xFX_0AHOtp6zkNM/edit#slide=id.p

Pattern-exploiting training

Pattern-exploiting training (a short overview) Apr 20, 2021

источник

101923:04пожаловаться #10

2021 April 26

Samsung Innovation Campus - AI Lectorium
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK

Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто 🔥.

Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.

Samsung Innovation Campus - AI Lectorium - YouTube

источник

146923:35пожаловаться #11

2021 May 11

Яндекс.Толока проводит воркшоп на конференции VLDB 2021: https://crowdscience.ai/conference_events/vldb21

В рамках него проходит соревнование:
https://crowdscience.ai/challenges/vldb21
где участникам предлагается построить модели, которые дают лучшую speech-to-text транскрипцию.
Призовой фонд - $6000

crowdscience.ai

VLDB2021 Crowd Science Workshop

источник

133714:49пожаловаться #12

Which transformer architecture fits my data? A vocabulary bottleneck in self-attention
Wies et al.
arxiv.org/abs/2105.03928

Авторы пытаются понять как подбирать гиперпараметры для трансформера и приходят к выводу, что размер словаря очень важен и зачастую ограничивает capacity архитектуры.

источник

111719:14пожаловаться #13

источник

110319:14пожаловаться #14

2021 May 13

Rethinking Positional Encoding in Language Pre-training
Ke, He, and Liu, [Microsoft]
arxiv.org/abs/2006.15595

Последнее время видно всё больше статей, которые пытаются разобраться в том, как работает / как улучшить positional encoding в трансформерах. В этой статье авторы рассуждают, что трансформер улавливает корреляции между словами и между позициями слов. Предлагают модифицировать архитекутуру, чтобы явно разделить эти две штуки. Если по классике на вход в attention приходит word emb + pos emb, то авторы предлагают считать два attention: число для word и чисто для pos, а потом их скоры (перед софтмаксом) складывать. Второй хак, который придумали авторы: это убрать из векторов CLS-токена информацию об абсолютных позициях: просто заменив в positional scores скоры CLS на выучиваемую константу.

По результатам: обучили BERT с такой архитектурой, улучшили GLUE, красивые виуализации positional scores.

Было бы интересно сравнить картинки word scores с attention scores в обычном BERT, но такого в статье нету =(

источник

116922:55пожаловаться #15

источник

112922:55пожаловаться #16

2021 May 15

FNet: Mixing Tokens with Fourier Transforms
Lee-Thorp et al., [Google]
arxiv.org/abs/2105.03824

Заменяем self-attention на обычное преобразование Фурье (хоть прямо torch.fft) и трансформер продолжает (хорошо) работать. Ускорение в 8 раз на GPU и в 2 раза на TPU. На GLUE показывает заметно худшие результаты чем обычных трансформер, но обходит старые подходы типа GPT-1 и ELMo. На Long-Range Arena близок к трансформеру. Пожалуй это самая безумная но одновременнно и эффектная альтернатива self-attention, которую я видел за последний год. Вангую, что attention не заменит, но это хороший прогресс в поиске новых архитектур.

За наводку спасибо @Liehtman

источник

115307:21пожаловаться #17

2021 May 19

источник

83416:53пожаловаться #18

Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
arxiv.org/abs/2105.07205
Liu et al.

Авторы анализируют различные комбинации skip connection и batch/layer norm. Показывают, что нормализация критична для того, чтобы градиенты не взрывалась/затухали. Также предлагают новый блок, в котором мы применяем skip и LN несколько раз подряд, где skip всегда идёт от оригинального инпута (параметры LN зашарены).

Показывают стабильное небольшое улучшение на нескольких языках WMT-14 и на CIFAR.

источник

86716:53пожаловаться #19

2021 May 27

Ждём T6 размером в 10 триллионов параметров

источник

114820:09пожаловаться #20

1
«
…
‹
50
51
52
53
54
55
56
›
…
»