Телеграмм чат группы theoreticalrl страница 33

https://openreview.net/pdf?id=SyzKd1bCW
Сабмит на ICLR, где авторы (кажется, из DeepMind'а) выучивают action-dependent control variate. Показывают, что метод круче, чем A2C

источник

19:10пожаловаться #10

АС

Артём С in RL reading group

Переслано от Артём С

источник

19:10пожаловаться #11

Pavel Shvechikov in RL reading group

"OptionGAN: Learning Joint Reward-Policy Options using Generative Adv. Inverse Reinf. Learning" arxiv.org/abs/1709.06683

источник

20:31пожаловаться #12

2017 October 29

Aleksey Grinchuk in RL reading group

Distributional RL applied to policy gradient methods
https://openreview.net/forum?id=SyZipzbCb&noteId=SyZipzbCb

источник

00:06пожаловаться #13

Oleg Kachan in RL reading group

будет ли обсуждение альфаго зиро?

источник

04:23пожаловаться #14

Aleksey Grinchuk in RL reading group

https://www.reddit.com/r/MachineLearning/comments/7780ok/r_alphago_zero_learning_from_scratch_deepmind/

https://github.com/gcp/leela-zero

http://www.inference.vc/alphago-zero-policy-improvement-and-vector-fields/

[R] AlphaGo Zero: Learning from scratch | DeepMind • r/MachineLearning

139 points and 23 comments so far on reddit

источник

09:13пожаловаться #15

Evgenii Zheltonozhsk... in RL reading group

Aleksey Grinchuk

[R] AlphaGo Zero: Learning from scratch | DeepMind • r/MachineLearning

139 points and 23 comments so far on reddit

1700 лет? 😒

источник

09:17пожаловаться #16

Pavel Shvechikov in RL reading group

Oleg Kachan

будет ли обсуждение альфаго зиро?

Да, хотелось бы обсудить Zero (возможно в контексте селф плея). Желающие рассказать про эту работу - напишите мне, пожалуйста.

источник

11:13пожаловаться #17

Pavel Shvechikov in RL reading group

[1709.04326] Learning with Opponent-Learning Awareness
https://arxiv.org/abs/1709.04326

источник

11:30пожаловаться #18

АС

Артём С in RL reading group

https://openreview.net/forum?id=BkUp6GZRW&noteId=BkUp6GZRW
> We propose Dual Actor-Critic algorithm, which is derived in a principled way from the Lagrangian dual form of the Bellman optimality equation. The algorithm achieves the state-of-the-art performances across several benchmarks.

источник

12:50пожаловаться #19

2017 October 30

📒

📒 in RL reading group

кто нибудь уже читал MAXIMUM ENTROPY EQUIVALENCE THEOREM, теор обоснование information bottleneck numeric experiments, вроде это самый топчик за 2к17 по DL https://openreview.net/pdf?id=r1kj4ACp-

источник

06:47пожаловаться #20