Телеграмм чат группы dlinnlp страница 43

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

DL in NLP

2978 membersпожаловаться на группу

1
«
…
‹
38
39
40
41
42
43
44
›
…
»

2020 May 01

Сегодня случайно нашёл Сondensa от NVIDIA
Такой фреймворк, который попробует за вас сжать вашу модельку с помощью квантизации/прунинга/и ещё кучи техник, которые есть у него в арсенале, автоматически подберёт гиперпараметры (buzzword: байесовская оптимизация) и вообще такой AutoML. На первый взгляд выглядит интерресно.
Статейка с подробным описанием внутренностей.

UPD: последний коммит сделан 6 месяцев назад 😞

NVlabs/condensa

Programmable Neural Network Compression. Contribute to NVlabs/condensa development by creating an account on GitHub.

источник

184222:17пожаловаться #1

источник

232222:17пожаловаться #2

2020 May 06

Подборка статей(+аннотации к ним) с ICLR от 🤗
тык
За ссылку спасибо @someotherusername

ICLR papers

Transformer architectures / pretraining losses Lite Transformer with Long-Short Range Attention Long Short Range Attention uses smaller dimension global attention in parallel with convolutions to capture local context. The approach is more parameter-efficient and robust to hyper-parameter search ...

источник

180213:01пожаловаться #3

2020 May 09

Подборка интересных новостей за последние дни:

1. Transformers v2.9 is out, with a built-in Trainer and TFTrainer 🔥(supports GPU, MultiGPU and TPU), examples
1. GitHub запустить бету Codespaces - такой VSCode в вашем гитхабе; записаться на early acess тут
1. DeepMind напоминает, что пока вы сидите дома пора учить RL
1. Этот канал как-то обходил подкаст AI Podcast with Lex Fridman стороной, но в последнем выпуске Ilya Sutskever - кофаундер OpenAI (youtube, apple podcasts, rss)

Hugging Face

Transformers v2.9 is out, with a built-in Trainer and TFTrainer 🔥 This let us reorganize the example scripts completely for a cleaner codebase. - Same user-facing API for PyTorch and TF 2 - Support for GPU, Multi-GPU, and TPU - Easier than ever to share your fine-tuned models

источник

155918:06пожаловаться #4

И пара ссылок из чата, спасибо за них @latynina46 и @Archelunch

1. Rasa Paper Reading: A Primer in BERTology
1. TAPAS: BERT-Based Neural Network for Querying Tables Using Natural Language

Rasa Paper Reading: A Primer in BERTology (Part 2)

This week we're doing something a little different with our livestream: we'll be reading a paper together! The paper is "A Primer in BERTology: What we know about how BERT works" by Anna Rogers, Olga Kovaleva, Anna Rumshisky. Link: https://arxiv.org/abs/2002.12327

What's livecoding? It's folks working on real projects in real time with help from you, the audience! Expect some bugs, breakthroughs and lots of fun.

Want to build your own bot? https://rasa.com/docs/
Link to code: https://github.com/rctatman/dialect-quiz-bot

источник

149918:11пожаловаться #5

2020 May 11

Recipes for building an open-domain chatbot
Статья | Блогпост | Опенсорс | Коллаб пообщаться с моделью

TL;DR
Фейсбук натренировал и зарелизил SOTA open-domain чатбот модель. Лучшая модель имеет 2.7В параметров, самая большая - 9.4B. По архитектуре - трансформер. На human evaluation модель от FB получилась сильно лучше прошлой SOTA модели - Meena от гугла.

Выложили все - код, модель и датасеты для файнтюна. Показали по сути два способа увеличения качества ответов модели:
- файнтюн модели на качественном разнообразном диалоговом корпусе
- тщательно подобранный способ декодинга ответа.

Суть:
Натренировали и сравнили друг с другом разные типы диалоговых моделей:
- retrieval-based. На вход контекст и датасет респонсов, на выходе нужно выдать топ релевантных респонсов из датасета. Использовали Poly-encoder модель, по сути усовершенствованный двубашенный трансформер-енкодер, где одна башня - енкодер контекста, вторая - енкодер респонса, на выходе - dot product, показывающий релевантность респонса для данного контекста.
- генеративные. На входе контекст, на выходе нужно сгенерировать респонс. Архтектура - encoder-decoder transformer, малослойный енкодер, многослойный декодер. Натренировали три базовые модели отличающиеся кол-вом параметров: 90M, 2.7B (ровно как в Meena), 9.4B.
- retrieve and refine - смесь двух подходов выше. Сначало получаем список кандидатов из retrieval-based модели, и подаем их в качестве подсказок в генеративную модель для генерации финального ответа.

Все базовые модели тренировали на огромной корпусе реддита. Финальный почищенный корпус имеет 1.5B диалоговых сообщений. Сколько учились и на каком железе не написали.

Для генеративных моделей перебирали разные способы как трейна, так и декодинга для улучшения качества ответов:
- добавление unlikelihood лосса. По сути в лосс добавляем штраф за порождение частотных нграмм, чтобы форсить разнообразие слов и коллокаций при генерации ответа.
- subsequence blocking. Выбрасываем респонсы у которых есть нграмное пересечение с контекстом, или же одна нграмма несколько раз встречается в самом ответе, т.e модель повторяет, то что уже сказала.
- файнтюн. Расмотрели 4 небольших диалоговых корпуса, от 50K до 200K сообщений в каждом: ConvAI2, Empathetic Dialogs, Wizard of Wikipedia и BST(Blended Skill Talk) - по сути объединение трех первых корпусов. Лучше всего файнтюн заработал на BST. Пример диалога из корпуса на скрине.
- декодинг. Пробовали beamsearch с разными beamsize, top-k сэмплирование, sample + rank как в Meena когда сначало сэмплим N ответов, а потом выбираем лучший по log-likelihood. В итоге лучшим оказался beamsearch (beam=10) c ограничением на длину, в котором они форсят генерировать ответ минимум в 20 токенов. Показали что таким образом увеличивается как качество ответов, так и engagingness - вовлеченность человека в беседу с чатботом.

A state-of-the-art open source chatbot

Today we’re announcing that Facebook AI has built and open-sourced BlenderBot, the largest-ever open-domain chatbot. It outperforms others in terms of engagement and also feels more human, according to human evaluators.

источник

10307:02пожаловаться #6

Результаты:
Для финального сравнения моделей использовали способ ACUTE-Eval. Состоит из двух шагов: шаг 1 - с помощью ассесоров набираем N диалогов между людьми и нашими разными моделями, шаг 2 - даем новым человекам-ассесорам сделать side-by-side сравнение - даем прочитать два диалога с разными чатботами и просим ответить какого чатбота ассесор бы предпочел для дальнейшего общения (см пример на скрине). Такой подход позволяет сравнивать модели просто имея сэмплы диалогов и не имея доступ к самой модели. Именно так и получилось с Meena которые выложили примеры диалогов, но не выложили саму модель.

По итогу самая лучшая модель - BST Generative на 2.7B с бимсерчем = 10 и ограничением минимальной длины ответа в 20 токенов. Удивительно что 9.4B модель проиграла 2.7B модели - на side-by-side сравнении по engagingness 54% проголосовали за 2.7B модель, хотя по perplexity 9.4B получилась лучше. Еще удивительно, что на side-by-side сравнении диалогов их лучшей модели и диалогов человек-человек, по метрике engagingness они сматчились с человеческими. Недалек тот день, когда можно будет выбросить всех друзей и увлекательно общаться только с чатботами

В заключении провели анализ ошибок модели, типичные факапы:
- противоречие и забывчивость. Модель в диалоге может противоречить сама себе или повторяться про те вещи, про которые говорила несколько шагов назад.
- выдумывание фактов. Модель может придумать и сгенерировать несуществующие факты о реальном мире, отсутствует понимание причино-следственных связей.
- чрезмерное использование частотных коллокаций. Намного чаще чем люди употребляет безопасные и частотные фразы как “do you like”, “lot of fun”, “have any hobbies”, etc

источник

8707:02пожаловаться #7

источник

8107:02пожаловаться #8

2020 May 13

ICLR 2020: Yann LeCun and Energy-Based Models
Обсуждеение видео лекции ЛеКуна о energy-based models, вариационных автокодировщиках, других странных штуках и о его видении ближайшего будущего DL.

BART version of closed-book QA
Репозиторий для end-to-end ответов на вопросы без использования какой-нибудь БД с текстами, вся инфа берётся из весов модельки. Релевантная статья: How Much Knowledge Can You Pack Into the Parameters of a Language Model?

Mapping Natural Language Instructions to Mobile UI Action Sequences
Давно не видел статеек, где придумывали бы какую-нибудь новую странную задачку. Lie et al. [Google] решили, что вместо использования (очень ограниченного) API для Google Assistant можно попытаться его напрямую обучить выполнять ±произвольные команды с вашим телефоном (звучит зловеще). Вообще идея интересная, если когда-нибудь получится завести это дело, то у Google Assistant и Siri будет очень хороший шанс выбраться из болота установки таймеров и прогнозов погоды.

ICLR 2020: Yann LeCun and Energy-Based Models

This week Connor Shorten, Yannic Kilcher and Tim Scarfe reacted to Yann LeCun's keynote speech at this year's ICLR conference which just passed. ICLR is the number two ML conference and was completely open this year, with all the sessions publicly accessible via the internet. Yann spent most of his talk speaking about self-supervised learning, Energy-based models (EBMs) and manifold learning. Don't worry if you hadn't heard of EBMs before, neither had we!

Thanks for watching! Please Subscribe!

Paper Links:
ICLR 2020 Keynote Talk: https://iclr.cc/virtual_2020/speaker_7.html
A Tutorial on Energy-Based Learning: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
Concept Learning with Energy-Based Models (Yannic's Explanation): https://www.youtube.com/watch?v=Cs_j-oNwGgg
Concept Learning with Energy-Based Models (Paper): https://arxiv.org/pdf/1811.02486.pdf
Concept Learning with Energy-Based Models (OpenAI Blog Post): https://openai.com/blog/learning-concepts-with-energy-functions/

#deeplearning #machinelearning…

источник

149319:01пожаловаться #9

arxiv.org/abs/2004.08900

источник

135519:11пожаловаться #10

С просторов ODS (спасибо человеку с ником Saddler)

100+ курсов на Coursera полностью бесплатно (с сертификатом).

Из того, что мне понравилось:
1. Google Cloud Platform Fundamentals for AWS Professionals
1. Analysis of Algorithms
1. Algorithms, Part II
1. Tricky American English Pronunciation

Online Courses Galore

100+ Coursera Certificate Courses Free Until 31st December - View the list

List of 100+ free Coursera certificate courses, learn new skills from top Universities, Colleges, Organisations. No credit card required, enroll right away

источник

243819:51пожаловаться #11

Кстати ещё хочу к этому списку добавить Data Science Math Skills

Релевантно для тех, у кого не было профильной математики в универе. На удивление для себя недавно обнаружил, что не всем легче читать LSTM как 4 формулы, чем как странную картинку.

Data Science Math Skills

Offered by Duke University. Data science courses contain ... Enroll for free.

источник

154320:07пожаловаться #12

Какое описание LSTM/Self-Attention вам понятнее?

Анонимный опрос

69%

Картинка/схема

31%

Формула

Проголосовало: 341

источник

146820:17пожаловаться #13

2020 May 14

Тут в чате опять годнота (спасибо @someotherusername)
Узнал про себя, что я советская пропаганда 😂

По аналогии с thispersondoesnotexist
https://www.thisworddoesnotexist.com

Thisworddoesnotexist

This Word Does Not Exist

We use artificial intelligence to make up new English words.

источник

149702:06пожаловаться #14

источник

152902:06пожаловаться #15

Ждём трансформеров в 100B параметров в этом году

источник

146518:05пожаловаться #16

Nvidia анонсировала архитектуру Ampere и новое решение на её базе, ускоритель Ampere A100. Если вы ждали игровые видеокарты, то их Nvidia показывать не стала. И даже не факт, что условные 3080 будут базироваться на Ampere. В 2017-м году Nvidia таким же образом выпустила ускорители на базе Volta. У них не было потребительских версий.

Итак, A100 на базе Ampere — это решение для суперкомпьютеров и дата-центров, с особым упором на машинное обучение и ИИ. Чип карты огромен (826 кв. мм.), а на плате напаяно 54 миллиарда транзисторов (18.6 миллиардов у 2080 Ti). Карта выполнена по 7нм техпроцессу. Nvidia говорит, что A100 мощнее Tesla V100 в 20 раз в ряде задач, особенно в обучении ИИ.

Купить A100 отдельно нельзя. Ускоритель поставляется в комплекте с суперкомпьютером DGX A100 на базе процессоров AMD Epyc. Стоимость такой машины - 200 тысяч долларов. Любопытно, что Nvidia отказалась от дальнейшего сотрудничества с Intel на рынке CPU.

https://www.engadget.com/nvidia-ampere-a100-gpu-specs-analysis-upscaled-130049114.html

NVIDIA's massive A100 GPU isn't for you

In this mini-episode of our explainer show, Upscaled, we break down NVIDIA's latest GPU, the A100, and its new graphics architecture Ampere. Announced at the company's long-delayed GTC conference, the A100 isn't intended for gamers, or even for workstation users. Volta never directly came to consumers — aside from the Titan V and a Quadro workstation card — but the improvements and tensor cores it introduced were a key part of Turing, the architecture which underpins almost all of NVIDIA's current GeForce and Quadro cards.

источник

9718:05пожаловаться #17

🤗 релизит более тысячи моделей машинного перевода (140 языков)
twitter.com/huggingface/status/1260942644286537728

Доступность бесплатных моделек на кучу языков, которые вы ещё и можете в 5 строчек запустить у себя может повлиять на много задачек. Например аугментация через перевод может стать более распространена.

Натренировано это множество с помощью Marian - плюсового фреймворка для перевода

Hugging Face

Let’s democratize NLP for all languages! 🌎🌎🌎 Today, with v2.9.1, we are releasing 1,008 machine translation models, covering ` of 140 different languages trained by @jorgtiedemann with @marian, ported by @sam_shleifer. Find your language here: https://t.co/9EMtfopij3 [1/4]

источник

174620:23пожаловаться #18

2020 May 15

🤗 зарелизил nlp (не самое удачное название)
Либа для датасетов и метрик. Сейчас доступно 95 датасетов включая Cornell Movie Dialog, WinoGrande, Xtreme и ещё кучу тех, что не GLUE.

Работает примерно так:

xquad_dataset = nlp.load_dataset('xquad', split='validation[:10%]')
xquad_metric = nlp.load_metric('xquad')

твиттер-тред: тык,
колаб поиграться: тык,
гитхаб: тык,

Thomas Wolf

Surviving every AI wave, two kernels have consistently been the beating hearts of Natural Language Processing: Datasets and Metrics Today we release "nlp", a library to easily share & load data/metrics already providing access to 99+ datasets! Try it👉 https://t.co/37pfogRWIZ

источник

175916:28пожаловаться #19

Что мы знаем про Transformer в 2020 году
Редкий случай в этом канале - доклад на русском языке.
Разбор Sparse Attention, Adaptive Spans и Reformer.
Мемы в наличии.

Спасибо @sokolov_yas за ссылочку

Даниил Гаврилов — «Что мы знаем про Transformer в 2020 году»

VK Lab Talks. 11 марта 2020. ФПМИ, Долгопрудный.

Даниил Гаврилов, разработчик ВКонтакте из Команды исследований, решает множество задач, где для достижения хороших результатов приходится использовать архитектуру Transformer. Однако уже давно ему перестало хватать вычислительных ресурсов для обучения больших моделей. В докладе «Что мы знаем про Transformer в 2020 году» Даниил расскажет, как можно оптимизировать Transformer, чтобы их можно было обучать даже на скромных мощностях.

Больше информации о VK Lab Talks в официальном сообществе VK Lab ВКонтакте: https://vk.com/lab

источник

218016:37пожаловаться #20

1
«
…
‹
38
39
40
41
42
43
44
›
…
»