Size: a a a

RL reading group

2018 January 24

AR

Andrey Rykov in RL reading group
И какой фреймворк?
источник

EN

Evgenii Nikishin in RL reading group
И почему это в этом чате обсуждается?
источник

R

Radoslav in RL reading group
Evgenii Nikishin
И почему это в этом чате обсуждается?
Много шарящих людей?
источник

R

Radoslav in RL reading group
tf 1.3, лосс поколебался и *сошелся*  к одному значению. Ощущение, что правда где-то nan и градиентов нет.
источник

IS

Ivan Skorokhodov in RL reading group
Radoslav
Много шарящих людей?
я предлагаю тогда обсудить, как заливать файлы на ios, наверняка тут многие в этом шарят
источник

AS

Andrew Stepanov in RL reading group
Radoslav
tf 1.3, лосс поколебался и *сошелся*  к одному значению. Ощущение, что правда где-то nan и градиентов нет.
Попробуй tfdbg-ом поискать nan или inf
источник

R

Radoslav in RL reading group
Спасибо за наводки, ушел разбираться :)
источник

P

Pavel Shvechikov in RL reading group
Radoslav
Много шарящих людей?
Для этого есть целый ods и горсть чатов про диплернинг. Тут - только про RL.
источник

P

Pavel Shvechikov in RL reading group
И кстати - про RL.
Какие вы знаете постановки задачи, где оптимальная политика - стохастичная (кроме POMDP)?
источник

OV

Oleg Vasilev in RL reading group
Pavel Shvechikov
И кстати - про RL.
Какие вы знаете постановки задачи, где оптимальная политика - стохастичная (кроме POMDP)?
я вот знаю задачу про бандита и полицейского :)
источник

EG

Evgeniy Golikov in RL reading group
Бандит многорукий?
источник

OV

Oleg Vasilev in RL reading group
Evgeniy Golikov
Бандит многорукий?
я бы сказал, многорукий полицейский
источник

C

Constantine in RL reading group
камни-ножницы-бумага, да и вообще игры со смешанной стратегией
источник

OV

Oleg Vasilev in RL reading group
Constantine
камни-ножницы-бумага, да и вообще игры со смешанной стратегией
ну это тоже pomdp
источник

IS

Ivan Skorokhodov in RL reading group
Pavel Shvechikov
И кстати - про RL.
Какие вы знаете постановки задачи, где оптимальная политика - стохастичная (кроме POMDP)?
имеется в виду, где детерменированная политика не может быть оптимальной?
источник

C

Constantine in RL reading group
Oleg Vasilev
ну это тоже pomdp
да, не понял вопрос.
источник

P

Pavel Shvechikov in RL reading group
Ivan Skorokhodov
имеется в виду, где детерменированная политика не может быть оптимальной?
Ага
источник

DP

Dmitry Persiyanov in RL reading group
В многоруком бандите же детерминированная оптимальная, нет?
Может быть в нестационарном бандите? Где распределение ревордов постоянно меняется (но это не классическая RL постановка)
источник

A

Arseny in RL reading group
Мне кажется, что в саттоне доказывают, что в MDP всегда можно построить детерминированную оптимальную, или я ошибаюсь?
источник

P

Pavel Shvechikov in RL reading group
Arseny
Мне кажется, что в саттоне доказывают, что в MDP всегда можно построить детерминированную оптимальную, или я ошибаюсь?
Не ошибаешься
источник