Size: a a a

2018 October 07
DL in NLP
Для подготовки ко второму семинару
1) досмотрите лекцию про Word2Vec (с 23 минуты до конца) https://youtu.be/ERibwqs9p38?t=1377
2) посмотрите лекцию про GloVe (полностью) https://youtu.be/ASn7ExxLZws
3) выполните второй квиз https://goo.gl/forms/3N4f4mYM8ePUg33h1
4) задайте вопросы, которые захотите обсудить на лекции https://goo.gl/forms/hbHOqmyAXK6n7HZl2
источник
DL in NLP
Также на этой неделе мы начнём постить дополнительные материалы. Статьи, видео, примеры проектов и ещё раз статьи. Их тоже можно будет обсудить на семинаре.
источник
DL in NLP
И первая рекомендованная для чтения статья.
Distributed Representations of Words and Phrases
and their Compositionality
Tomas Mikolov et al, 2013
https://arxiv.org/pdf/1310.4546.pdf

Пожалуй, это основная статья по Word2Vec. В ней описана архитектура Skip-gram и несколько трюков, которые помогли W2V стать более вычислительно эффективным: Hierarchical Softmax и Negative Sampling
В лекции рассказана большая часть статьи, что должно упростить чтение.
источник
2018 October 08
DL in NLP
Сегодняшняя статья:
Enriching Word Vectors with Subword Information
Piotr Bojanowski, Edouard Grave, Armand Joulin and Tomas Mikolov
https://arxiv.org/pdf/1607.04606.pdf

В статье представлен метод получения векторных представлений fastText, который избавлен от одной из больших проблем классического word2vec: невозможности получения векторов для слов, отсутствующих в обучающей выборке (out-of-vocabulary words). Основная идея в том, чтобы использовать для построения эмбеддинга char n-gram.
На самом деле в своей практике я (и не только я) использую предобученный fastText заметно чаще, чем предобученный классический w2v / GloVe, поэтому считаю эту статью очень важной. К сожалению, она вышла уже после записи стэнфордских видео, поэтому про них ничего не рассказано, но мы обязательно затронем этот алгоритм на семинаре.

Дополнительные ссылки:
https://fasttext.cc - офсайт
https://youtu.be/CHcExDsDeHU - видео с презентацией статьи
https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md - бинарники готовых векторов, обученных на википедии для 294 языков
источник
DL in NLP
Готовые домашние задания присылайте на почту nlp_course@ipavlov.ai c темой "Assignment N", где N - номер домашки. Просьба не указывать своё имя в самом ноутбуке.
источник
2018 October 11
DL in NLP
Напоминаю, что сегдоня второй семинар. Время и место проведения те же самые. Посмотрите лекции и выплоните квиз до 19, если ещё нет и приезжайте на Физтех / заходите на YouTube.
Ссылка на трансляцию: https://www.youtube.com/watch?v=sV8Ig5APq2g

Также регистрация на курс официально закрыта.

Просьба тех, кто хочет посетить семинар сегодня и не был на прошлом написать @vlyalin в ЛС, я проверю вас в списках.
источник
DL in NLP
Attention: если вы сегдоня посещаете семинар впервые и вы не из МФТИ, отпишитесь в ЛС @vlyalin, чтобы я проверил вас в списках (вдруг в сообщении выше не заметили).
источник
DL in NLP
Напоминаю, что завтра в 23:59 мягкий дедлайн по первому ДЗ. После этого баллы будут линейно дисконтироваться вплоть до половины от максимального в день жёсткого дедлайна (19 октября).
источник
2018 October 12
DL in NLP
Подготовка к третьему семинару:
1) Лекция https://youtu.be/uc2_iwVqrRI
2) Квиз https://goo.gl/forms/hl1FNCPBFgjxa5sR2
3) Вопросы https://goo.gl/forms/sAlrw7erAcdL2pYT2

На нём мы начнём наше обсуждение нейронных сетей, поговорим про классификацию и даже будет немного теории информации.
источник
DL in NLP
Второе домашнее задание.

В нём вы должны будете самостоятельно написать CBOW и skip-gram word2vec, а также воспользоваться готовой библиотекой для fastText.
Мягкий дедлайн: 19 октября
Жёсткий дедлайн: 2 ноября

Пожалуйста, не затягивайте со сдачей, нам предстоит ещё как минимум 3 домашних задания и проект.
источник
DL in NLP
Ссылка на ноутбук с домашним заданием:
https://github.com/Guitaricet/deep-nlp-seminars/blob/master/seminar_02/embeddings.ipynb
источник
DL in NLP
В этом семестре мы хотим провести две coding session - два 3-4 часовых занятия на котором мы будем заниматься только практикой. Делать домашки (на первой) или помогать вам с проектом (на второй). Нравится ли вам эта идея, и придёте ли вы?
public poll

Да, но только, если это будет в Москве – 31
👍👍👍👍👍👍👍 48%

Да, и я готов приехать в Долгопрудный – 22
👍👍👍👍👍 34%

Нет, лучше я разберусь самостоятельно – 12
👍👍👍 18%

👥 65 people voted so far.
источник
2018 October 13
DL in NLP
Начну постить то, что обещал на последнем семинаре

Byte pair encoding (BPE) - хороший способ бороться с большим размером словаря и обрабатывать языки со сложной морфологией. Мы ещё поговорим про него, когда будем обсуждать машинный перевод.

Статья: https://arxiv.org/pdf/1508.07909.pdf
Видео про различные проблемы со словарём и то, как можно их решать: https://www.coursera.org/lecture/language-processing/how-to-deal-with-a-vocabulary-mvV6t
источник
2018 October 14
DL in NLP
Сегодняшняя полезная (надеюсь) ссылка: глоссарий терминов машинного обучения.

https://developers.google.com/machine-learning/glossary/?utm_source=google-ai&utm_medium=card-image&utm_campaign=training-hub&utm_content=ml-glossary
источник
2018 October 15
DL in NLP
Так как мы с вами потихоньку начинаем говорить про нейросети, предлагаю освежить свои знания по линейным моделям. И предлагаю сделать это с помощью статьи из восхитительного курса по классическому ML от Open Data Science.

https://habr.com/post/323890/
источник
2018 October 16
DL in NLP
Отличная статья про однослойные нейронные сети, очень рекомендую к прочтению, она небольшая.
(В названии есть слово convolutional, но она не про свёртки, так что обязательно читайте уже сейчас)

http://cs231n.github.io/neural-networks-1/
источник
2018 October 18
DL in NLP
dlinnlp
Подготовка к третьему семинару:
1) Лекция https://youtu.be/uc2_iwVqrRI
2) Квиз https://goo.gl/forms/hl1FNCPBFgjxa5sR2
3) Вопросы https://goo.gl/forms/sAlrw7erAcdL2pYT2

На нём мы начнём наше обсуждение нейронных сетей, поговорим про классификацию и даже будет немного теории информации.
Напоминаю, что сегодня у нас третий семинар.
Время просмотреть лекцию и сдать квиз ещё есть.

Как и в прошлый раз, ели вы ещё не были на наших семинарах и вы не с Физтеха, напишите @vlyalin для проверки в списках
источник
DL in NLP
Через полчаса начнётся третий семинар курса
Ссылка на YT-трансляцию: https://youtu.be/SCmAKXokyoE

Также напоминаю, что завтра в 23:59 мягкий дедлайн по второму домашнему заданию и жёсткий дедлайн по первому
источник
2018 October 23
DL in NLP
Запоздало, но всё-таки вот задание к следующему семинару:

1) Лекции: https://youtu.be/isPiE-DBagM и https://youtu.be/i94OvYb6noo (обязательно)
https://youtu.be/gYpoJMlgyXA (опционально, но рекомендую)
2) Квиз: https://goo.gl/forms/VjWf3a7ED879Prp03
3) Вопросы: https://goo.gl/forms/k03bVTfnX9XWOUVe2

На семинаре снова поговорим про бэкпроп, обсудим методы оптимизации для нейросетей и много практических советов.
источник
2018 October 24
DL in NLP
Сегодня в нашей нерегулярной рубрике всяких штук хочу рассказать про http://course.fast.ai

Довольно необычный курс по глубокому обучению, который руководствуется не подходом снизу-вверх (как мы), а подходом сверху-вниз. То есть уже на первом занятии они обучают нейросеть для классификации изображений, но как она работает, рассказывают только через несколько занятий.
Курс интересный, в нём много нового даже если вы уже хорошо знакомы с нейросетями. Многие занятия на 90% состоят из описания различных каггловских трюков для улучшения качества модели. В общем рекомендую. Если у вас много времени, можете посмотреть первую лекцию из него, думаю, я затрону пару моментов оттуда на завтрашнем семинаре.
источник