Телеграмм чат группы dlinnlp страница 18

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

DL in NLP

2929 membersпожаловаться на группу

1
«
…
‹
13
14
15
16
17
18
19
›
…
»

2019 July 11

#rl Мне показалось, что в курсе не хватает теоретических заданий
К следующему занятию (через неделю) планирую решить теоретические задачки первой домашки стенфордского курса cs234

Подключайтесь

источник

119713:04пожаловаться #1

#rl спасибо @laggg5 за наводку на хабростатью про Q-learning

habr.com/ru/post/345656

Пробуем q-learning на вкус, повесть в трех частях

Эта статья — небольшая заметка о реализации алгоритма q-learning для управления агентом в стохастическом окружении. Первая часть статьи будет посвящена созданию...

источник

121217:55пожаловаться #2

#rl Сори, у нас произошла накладка со списками. Тем, у кого нет пропусков (и кто не с summer camp) нужно будет по приходу на охрану написать @dropout05, чтобы я спустился и пропустил вас.
Ровно по этой же причине просьба не опаздывать, начнём в 19:10.

источник

114117:59пожаловаться #3

2019 July 12

#rl @laggg5 продолжает спонсировать нас материалами по Q-learning et al., спасибо ему за это

Reinforcement learning: Temporal-Difference, SARSA, Q-Learning & Expected SARSA in python
Кроме того, что есть в заголовке, в статье описывается отличие on-policy от off-policy, которое вчера на семинаре показалось нам неочивидным.

towardsdatascience.com/reinforcement-learning-temporal-difference-sarsa-q-learning-expected-sarsa-on-python-9fecfda7467e

Reinforcement learning: Temporal-Difference, SARSA, Q-Learning & Expected SARSA on python

TD, SARSA, Q-Learning & Expected SARSA along with their python implementation and comparison

источник

118513:54пожаловаться #4

Снова #rl

К следущему четвергу смотрим следующие лекции:
week 4 Approximate RL
week 5 Exploration
week 5 Policy Gradient methods

и делаем соответствующие домашки

источник

112414:56пожаловаться #5

PR в pytorch-pretrained-BERT c XLNet. Если кто-то хотел поиграться, уже можно.

github.com/huggingface/pytorch-pretrained-BERT/pull/711

Release 0.7 - adding XLNet and XLM model - Standardizing API - Adding BERTology - Torchscript compatibility [WIP] by thomwolf · Pull Request #711 · huggingface/pytorch-pretrained-BERT

Current status:

model with commented code and pretrained loading logic
tokenizer
tests for model and tokenizer
checking standard deviation of hidden states with TF model is ok (max dev btw 1e-...

источник

117819:14пожаловаться #6

2019 July 13

Новая статья от Lample. Memory networks are back.

источник

110615:10пожаловаться #7

https://twitter.com/GuillaumeLample/status/1149646895377076224

Guillaume Lample

Our new paper: Large Memory Layers with Product Keys https://t.co/eNEcfdJs1c We created a key-value memory layer that can increase model capacity for a negligible computational cost. A 12-layer transformer with a memory outperforms a 24-layer transformer, and is 2x faster! 1/2

источник

121815:10пожаловаться #8

2019 July 14

Спасибо @someotherusername за ссылку irl.spacy.io/2019

Есть записи всех выступлений и некоторые из них могут быть интересны. Я (очень ускоренно) просмотрел первые 2 и не стоит ожидать от них каких-то прорывных идей, но, к примеру, у Рудера очень неплохой обзор состояния TransferLearning в NLP

spaCy IRL 2019 · Two days of NLP in Berlin

We're pleased to invite the spaCy community and other folks working on Natural Language Processing to Berlin this summer for a small and intimate event July 5-6.

источник

122614:42пожаловаться #9

2019 July 15

Sparse Networks from Scratch: Faster Training without Losing Performance
timdettmers.com/2019/07/11/sparse-networks-from-scratch

Стандартные подходы к сжатию сеток основываются на том, что мы обучаем сеть обычным метогдом, а потом эту (плотную) сеть уменьшаем и прорежаем. В этой статейке предложили метод оптимизации, который делает сетки разрежеными ещё во время обучения. Выглядит интересно, но тестировали как всегда только на MNIST и CIFAR.

Sparse Networks from Scratch: Faster Training without Losing Performance

This blog post explains the sparse momentum algorithm and how it enables the fast training of sparse networks to dense performance levels — sparse learning.

источник

107116:27пожаловаться #10

#rl

К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.

Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.

источник

109921:26пожаловаться #11

Это не я их ищу, это они меня находят. Ещё одна вариация трансформера.

R-Transformer: Recurrent Neural Network Enhanced Transformer
Wang et al. [Michigan State University]
arxiv.org/abs/1907.05572

Главная часть абстракта:
Despite their success, however, these models [transformers] lack necessary components to model local structures in sequences and heavily rely on position embeddings that have limited effects and require a considerable amount of design efforts.

Основная идея состоит в том, чтобы использовать для учёта локального контекста (например, 3 слова) модифицированную RNN, учитывающую только предыдущие M=3-1 слов, а для учёта глобального контекста (всей последовательности) использовать обычный self-attention. Работает на удивление неплохо, хотя задачи, конечно странно выбраны.

источник

116021:49пожаловаться #12

LocalRNN

источник

110321:49пожаловаться #13

источник

112621:50пожаловаться #14

Вся архитектура

источник

112421:51пожаловаться #15

источник

117521:51пожаловаться #16

2019 July 16

Multilingual Universal Sentence Encoderfor Semantic Retrieval
Yang, Cer et al. [Google], 2019
arxiv.org/abs/1907.04307

Если кто-то пользовался TFHub, то один из самых популярных модулей там - это Universal Sentence Encoder (arxiv.org/abs/1803.11175). USE - это трансформер из эпохи позднего предбертья, предобучающаяся как на unsupervised (skip-thought), так и на supervised (SNLI) тасках.

Однако USE, выложенный на TFHub был недостаточно universal, потому что он был обучен только на английском. В новой версии он поддерживает 16 языков (включая русский 🎉). Про то, как он обучается: a multi-feature question-answer prediction task, a translation ranking task, and a natural language inference task. Я надеюсь, что вы поняли, потому что это всё, что я смог выудить из статьи.
Про данные расказано немного больше и есть интересные моменты:
1. QA-пары намайнены с Reddit, StackOverflow и YahooAnswers; часть QA-датасета переведена, чтобы добить все языки хотя бы до 60 млн пар вопрос-ответ
1. Переводы намайнены согласно www.aclweb.org/anthology/C10-1124 (статья просто даёт ссылку)
1. SNLI переведён с английского на все остальные 15 языков автоматически с помощью Google Translate

Кроме добавления 15 языков, модель теперь протестирована на поисковых тасках и показывает адекватное качество.

Из других интересных вещей: выложена не только transformer-based архитектура, но и CNN. CNN подходит вам сильно больше, если ваши тексты длинные, и/или вам важна производительность.

за наводку на статью спасибо @someotherusername

источник

126112:27пожаловаться #17

И соответствующая "USE 2.0" статья из блога Гугла:
ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html

Multilingual Universal Sentence Encoder for Semantic Retrieval

Posted by Yinfei Yang and Amin Ahmad, Software Engineers, Google Research Since it was introduced last year , “ Universal Sentence Encode...

источник

126112:32пожаловаться #18

2019 July 18

Вы можете не любить эту либу, только если вы её не пробовали. Теперь 1.0

twitter.com/Thom_Wolf/status/1151169470498582529

Thomas Wolf

🔥Pytorch-Transformers 1.0🔥 Six NLU/NLG architectures: BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM Total: 27 pretrained models Still the same -Superfast onboarding -SOTA scripts: GLUE, SQuAD, Text generation New -Unified API -Access hidden-states, attentions... -Torchscript -...

источник

121410:35пожаловаться #19

B тут Рудер зовёт к себе на работу, вдруг кто решит попробовать пройти в DeepMind

https://twitter.com/seb_ruder/status/1151521975866667019

Sebastian Ruder

Are you excited about building models that can understand language? Do you want to understand how humans acquire language in the first place? We have an opening for a research engineer in our team at @DeepMindAI. https://t.co/XxGxgQszsf

источник

129410:36пожаловаться #20

1
«
…
‹
13
14
15
16
17
18
19
›
…
»