Size: a a a

RL reading group

2017 October 05

AP

Anton Pankratov in RL reading group
mnmntqkqww
источник

c

cydoroga in RL reading group
Спс
источник

АС

Артём С in RL reading group
источник
2017 October 06

P

Pavel Shvechikov in RL reading group
источник
2017 October 07

M

Mikhail in RL reading group
наверное, глупый вопрос: как поступают, если некоторые действия появляются, а другие запрещаются в зависимости от текущего состояния? Какие статьи почитать?

например, робот в принципе не может сделать действие "выйти из дома", если он уже на улице. Понятно, что можно запрограммировать среду обрабатывать такие ситуации и считать, что робот совершил действие "стоять на месте", но мне кажется, модель долго будет учиться.
источник

AG

Aleksey Grinchuk in RL reading group
А почему кажется, что модель будет долго учиться? При дисконтировании y<1 действия “ничего не делать” снижают суммарную дисконтируемую награду и робот по идее должен выучить их не выбирать, если это не необходимо. Ещё можно за каждое промежуточное действие маленький штраф давать, как в статье с квадрокоптером, которую кидали в тред. Но это хорошо зайдёт, если эпизоды не очень длинные или же если робот должен достигать целей как можно скорее.
источник

M

Mikhail in RL reading group
Спасибо за ответ! Получается, можно давать возможность роботу делать любые возможные действия, а на уровне среды уже 1) штрафовать и 2) игнорировать неадекватные действия (т.е. считать, что робот выбрал действие "стоять на месте" вместо "лететь на луну").

По поводу сложности обучения - это лишь мои догадки. Я очень мало применял RL для реальных задач.
источник

AG

Aleksey Grinchuk in RL reading group
Тут, конечно, нужно пробовать и смотреть что будет получаться, RL в любом случае долго будет учиться. Касательно роботов и реальных задач, есть статья про то “как японцы учили робота за руку здороваться”:

http://www.cs.columbia.edu/~allen/S17/Student_Papers/qureshi_deep_learn_social.pdf

Там довольно простой топорный Q-learning, но грамотное распределение наград. Тоже довольно простое и топорное, но работающее, что наиболее важно.
источник
2017 October 10

P

Pavel Shvechikov in RL reading group
источник

S

Shmuma in RL reading group
Лекции, слайды и лабы с Deep RL Bootcamp: https://sites.google.com/view/deep-rl-bootcamp/lectures
источник

АК

Андрей Квасов... in RL reading group
👍
источник

SS

Sergey Sviridov in RL reading group
🔥
источник

P

Pavel Shvechikov in RL reading group
Ultimate hype - как правильно соединять все предложенные улучшения q-learning

https://arxiv.org/abs/1710.02298
источник

SS

Sergey Sviridov in RL reading group
🌈
источник

VR

Victor Rudnev in RL reading group
источник

АС

Артём С in RL reading group
источник

АС

Артём С in RL reading group
источник
2017 October 11

P

Pavel Shvechikov in RL reading group
Друзья, всем добрый вечер!
Завтра, как и обычно, будет два  доклада. Оба в той или иной степени будут касаться байсовских сетей и обещают быть весьма  любопытными.
Сначала @cydoroga  расскажет про  logistic MDP – недавнее поделие рук google research и принятое на конференцию IJCAI-17. Речь пойдет про long-term decision process и user interaction. В двух словах – мы узнаем, как не ограничиваться предсказанием статического пользовательского поведения с помощью обычных методов ML, а моделировать многочисленные взаимодействия с пользователем с помощью динамических байесовских сетей.
Затем @Liza расскажет про любопытное, нестандартное использование байесовских нейронных сетей для model-based обучения с подкреплением.

Если кто еще не успел заполнить ЗАЯВКУ НА ПРОПУСК, пожалуйста сделайте это до конца сегодняшнего дня.
источник
2017 October 12

P

Pavel Shvechikov in RL reading group
источник

P

Pavel Shvechikov in RL reading group
Переслано от cydoroga
источник