Size: a a a

RL reading group

2017 September 02

P

Pavel Shvechikov in RL reading group
Еще мы сильно обновили, оздоровили, и перенесли список статей для дальнейшего обсуждения.
Он находится теперь на другой вкладке нашего расписания, посмотреть можно по ссылке
https://docs.google.com/spreadsheets/d/1ZeL1_mfR1ccwKKO_ihKs6R26pqy5bsJgU_t3jJjSN5c/edit#gid=1880412168
Там добавилось много новых статей, (в том числе и про starcraft и про теорию с ICML).
Посмотрите, пожалуйста, кого-что заинтересовало и напишите мне когда бы Вы хотели выступить.

Also, у нас теперь появился красивый график героев среди наших рядов! Спасибо неизвестному создателю!  🙂
График находится на вкладке Heroes 🙂
источник

P

Pavel Shvechikov in RL reading group
источник

AP

Anton Pechenko in RL reading group
а что за теория с ICML?
источник

P

Pavel Shvechikov in RL reading group
Загляни, например в Stochastic Variance Reduction Methods for Policy Evaluation
источник
2017 September 03

P

Pavel Shvechikov in RL reading group
источник
2017 September 04

P

Pavel Shvechikov in RL reading group
Ребята! Видимо начало сентября подкосило всех.
Если вдруг кто-нибудь таки захочет, чтобы семинар в этот чт состоялся и захочет рассказать одну/две статьи, то welcome!
Пока на этот чт нет никого. 🙂 После этой недели вроде уже планы более определенные и обнаживающие.
источник
2017 September 05

NP

Nikita Petrenko in RL reading group
Я правильно понимаю, что policy gradient theorem остается в силе, если вместо d(logP(a|x))/dtheta брать (d(P(a|x))/dtheta)/P~(a|x), где P~(a|x) - та политика, которой были нагенерены сэмплы? В статье что-то похожее фигурирует, но если смотреть в доказательство PGT, нужно будет еще умножить на P(trajectory)/P~(trajectory)
источник

NP

Nikita Petrenko in RL reading group
типа off-policy A2C
источник

NP

Nikita Petrenko in RL reading group
ну частично off-policy. IS плохо работает для сильно отличающихся распределений, хочется просто experience replay приделать
источник
2017 September 06

P

Pavel Shvechikov in RL reading group
Всем доброго вечера!
Завтрашний семинар состоится, на нем будет @cydoroga  расскажет про  logistic MDP – недавнее поделие рук google research и принятое на конференцию IJCAI-17 (International Joint Conference on Artificial Intelligence). Речь пойдет про long-term decision process и user interaction. В двух словах – мы узнаем, как не ограничиваться предсказанием статического пользовательского поведения с помощью обычных методов ML, а моделировать многочисленные взаимодействия с пользователем с помощью динамических байесовских сетей.
@cydoroga – 👏👏👏
Приходите, будет полезно и нетривиально.


Напоминаю, что всем заинтересовавшимся и не имеющим пропуска нужно заполнить гуглоформу в шапке канала для получения пропуска.
В связи со столь поздним объявлением, заполнять заявление можно будет до полудня (12 часов) завтрашнего дня, четверга.

🙂
источник

P

Pavel Shvechikov in RL reading group
Nikita
> d(logP(a|x))/dtheta брать (d(P(a|x))/dtheta)/P~(a|x)
Эти выражения абсолютно эквивалентны, насколько я смог их распарсить.
Проблема с PG методами в том, что если использовать ER, то велика вероятность встретить в ER такое сочетание состояния и сделанного действия, для которого текущая (обновленная с момента совершения этого действия) политика выдает вероятность ноль, то есть pi(a | s)  = 0
А это значит, что \nabla \log \pi(a | s) есть попытка дифференциировать минус бесконечность.
Ноль это предельный случай, конечно, но проблема остается и для малых вероятностей.
источник

NP

Nikita Petrenko in RL reading group
@ipaulo не эквивалентны, если та политика, с помощью которой мы генерим сэмплы (P~) отличается от политики, по которой пытаемся взять градиент (P)
источник

NP

Nikita Petrenko in RL reading group
ну и описанной проблемы тогда не возникает, поскольку в знаменателе фиксированное число, не относящееся к текущей политике
источник

P

Pavel Shvechikov in RL reading group
Сходу кажется, что ты хочешь переизобрести TRPO.
То есть применяя такое преобразование, ты оптимизируешь текущую политику беря матожидание по state-visitation distribution старой политики.
Кажется, что делать это можно, но нужно явно ограничивать расхождение в этих распределениях.
Постраюсь глянуть на свежую голову завтра.
источник

AM

Aleksandr Mikhailov ... in RL reading group
@ipaulo завтра по расписанию в Гарварде в это время будет занятие в ШАД)
источник

P

Pavel Shvechikov in RL reading group
@sashamn
Вроде бы Стас говорил про то, что мы переберемся в Стенфорд на время занятий в ШАДе.
Я уточнюсь, и завтра отпишусь.
источник
2017 September 07

AG

Alexander Grishin in RL reading group
@ipaulo
Семинар как обычно в 19:00?
источник

АК

Андрей Квасов... in RL reading group
m&
источник

P

Pavel Shvechikov in RL reading group

ACHTUNG !!!
@ВСЕ КТО СОБИРАЛСЯ СЕГОДНЯ НА СЕМИНАР !!!

Его придется отменить по причинам, не зависящим от наших усилий.
Прошу прощения за внезапность отмены, она действительно не зависит от нашего желания, не могла быть предвидена и не связана с переносом аудитории.
Дико извиняюсь перед всеми, кто внес сегодняшний семинар в планы.
источник

P

Pavel Shvechikov in RL reading group
еще объявление










@ ВООБЩЕ ВСЕ  
@ EVERYONE IN THIS GROUP
!!!
Пожалуйста, сходите по следующей ссылке.
https://goo.gl/forms/BslQQTVDZcqGuxU52
Возможно нам придется перенести время проведения семинара и очень хотелось бы, чтобы это время было бы удобно как можно большему количеству людей.
Еще раз убедительно прошу всех заполнить форму, чтобы мы могли планировать занятость аудитории
источник