Телеграмм чат группы theoreticalrl страница 36

Size: a a a

RL reading group

2017 November 12

Department of Computer Science, University of Oxford: Publication - Dynamic−Depth Context Tree Weighting
http://www.cs.ox.ac.uk/publications/publication11278-abstract.html

www.cs.ox.ac.uk

Department of Computer Science, University of Oxford: Publication - Dynamic−Depth Context Tree Weighting

Reinforcement learning (RL) in partially observable settings is challenging because the agent's observations are not Markov. Recently proposed methods can learn variable-order Markov models of the underlying process but have steep memory requirements and are sensitive to aliasing between observation histories due to sensor noise. This paper proposes dynamic-depth context tree weighting (D2-CTW), a model-learning method that addresses these limitations. D2-CTW dynamically expands a suffix tree while ensuring that the size of the model, but not its depth, remains bounded. We show that D2-CTW approximately matches the performance of state-of-the-art alternatives at stochastic time-series prediction while using at least an order of magnitude less memory. We also apply D2-CTW to model-based RL, showing that, on tasks that require memory of past observations, D2-CTW can learn without prior knowledge of a good state representation, or even the length of history upon which such a representation should depend.

источник

10:23пожаловаться #1

Pavel Shvechikov in RL reading group

Marlos C Machado (University of Alberta) – Revisiting the Arcade Learning Environment
https://vimeo.com/241533065

Vimeo

Marlos C Machado (University of Alberta) – Revisiting the Arcade Learning Environment

"Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents" The Arcade Learning Environment (ALE) is an…

источник

10:24пожаловаться #2

2017 November 13

Pavel Shvechikov in RL reading group

[1705.08926] Counterfactual Multi-Agent Policy Gradients
https://arxiv.org/abs/1705.08926

источник

09:56пожаловаться #3

Pavel Shvechikov in RL reading group

[1711.02257] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
https://arxiv.org/abs/1711.02257

источник

10:05пожаловаться #4

Pavel Shvechikov in RL reading group

[1705.08439] Thinking Fast and Slow with Deep Learning and Tree Search
https://arxiv.org/abs/1705.08439

источник

18:36пожаловаться #5

2017 November 14

Aleksey Grinchuk in RL reading group

https://arxiv.org/abs/1711.03938

источник

12:19пожаловаться #6

Aleksey Grinchuk in RL reading group

CARLA: An Open Urban Driving Simulator

Фрейморк на базе GTA 5 для autonomous driving research. Новости не очень: RL там плоховат по сравнению с другими методами.

источник

12:20пожаловаться #7

Artem Grachev in RL reading group

да RL много где плоховат.
Это скорей говорит о том, что ему ещё есть куда развиваться

источник

12:29пожаловаться #8

Konstantin Ostrovsky in RL reading group

[1706.02275] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
https://arxiv.org/abs/1706.02275

источник

12:40пожаловаться #9

2017 November 15

Pavel Shvechikov in RL reading group

[1711.02827] Inverse Reward Design
https://arxiv.org/abs/1711.02827

источник

09:57пожаловаться #10

Pavel Shvechikov in RL reading group

Коллеги, добрый вечер!

Завтра будет два доклада.
Сначала @omtcyfz расскажет про любопытную недавнюю поделку Sutton, в частности про обобщение многошагового Q-обучения.
Затем Konstantin немного поведает о том, что происходит в мире мультиагентного RL — темы, которая практически всегда обходится стороной в разных курсах по RL. Stacraft included.

Регистрируйтесь, как обычно, до конца сегодняшнего дня по ссылке из шапки.

источник

21:22пожаловаться #11

Anton Pechenko in RL reading group

SC - это круто!

источник

22:07пожаловаться #12

Sergey Kolesnikov in RL reading group

привет всем любителям RL!
закончился NIPS RL, и мы с @fgvbrt прошли через многое, чтобы выйти на 3е место. Если кому будет интересно послушать эту историю - думаем зайти в декабре и рассказать. @Parilo также очень интересно узнать и про твою решение (мы за ним внимательно следили)
PS. хотите исходники? они есть у меня
https://github.com/Scitator/Run-Skeleton-Run
https://github.com/fgvbrt/nips_rl

источник

22:51пожаловаться #13

Evgenii Zheltonozhsk... in RL reading group

отрыв конечно приличный

источник

22:54пожаловаться #14

Anton Pechenko in RL reading group

Самое интересное, что ваше решение не просело от препятствий, это круто)

источник

22:57пожаловаться #15

2017 November 16

Pavel Shvechikov in RL reading group