Миникурсу по RL быть!
О формате курса: постараемся разобрать базовые вещи в RL с максимумом практики за 1 месяц, за основу берём
курс ШАДа. Это будет очень жёстко, я бы ориентировался минимум на
20 часов самостоятельной работы в неделю. Встречаться будем в Долгопрудном, только чтобы обсудить вопросы по лекции и домашкам. Будет предполагаться, что вы их уже посмотрели/сделали. Записи семинаров и трансляций скорее всего не будет, тк не считаю, что их просмотр будет хотя бы кому-то полезен.
В нашем курсе будем брать примерно по 3 лекции и соответствующих практических занятий в неделю. Разбивка получается примерно следующая:
1. MDP, value-based methods, Q-learning, табличный RL
2. Введение в deep RL, exploration vs exploitation
3. Policy gradient methods, reinforcement learning for sequence models, partially obserbed MDB
4. TRPO, PPO, DDPG, model-based RL
Пока что неделя 3 выглядит очень жёсткой, так что готовьтесь страдать.
Если будет слишком легко (нет), возьмём задачек/лекций из
этого курса. Также постараюсь пригласить к нам людей, которые разбираются в RL, чтобы поговорить про всякие методы, которых нет в курсе яндекса.
Я не считаю себя хоть сколько-нибудь специалистом в RL и буду учить его вместе с вами.
К первому занятию, которое будет
11 июля смотреть первые 3 лекции и делать первые 3 домашки. Они довольно простые, но хотя бы 2 вечера я бы на них выделил.
Ещё раз ссылка на яндексовый курс:
https://github.com/yandexdataschool/Practical_RL/wiki/Practical-RL