Size: a a a

RL reading group

2017 October 27

АС

Артём С in RL reading group
Мы не знаем, насколько хорошо он разбирается. В наличие у интервьювера квалификации, чтобы это оценить, я не верю
источник

ДМ

Даня Меркулов... in RL reading group
Леша вроде лично знаком с ним)
источник

DM

Dmitry Mittov in RL reading group
Артём С
Мы не знаем, насколько хорошо он разбирается. В наличие у интервьювера квалификации, чтобы это оценить, я не верю
судя по ссылкам что читал - разбирается ))
источник

AG

Aleksey Grinchuk in RL reading group
Я в Сириусе в этом году преподавал и он оказался одним из моих протеже. Я с ним порядка трёх недель общался и могу сказать, что он неплох (:
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
ну к сожалению (или к счастью) "быть крутым в 12" очень часто не тянет за собой "быть крутым в 25"
источник

AG

Aleksey Grinchuk in RL reading group
Ага, много ребят перегорают.
источник

AG

Aleksey Grinchuk in RL reading group
В частности, потому что им тяжело общаться со сверстниками.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Aleksey Grinchuk
Ага, много ребят перегорают.
не только, некоторых просто сверстники догоняют.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Типа, скорость обучения ничего не говорит о максимальном уровне практически
источник
2017 October 28

АС

Артём С in RL reading group
Переслано от Артём С
https://openreview.net/pdf?id=SyzKd1bCW
Сабмит на ICLR, где авторы (кажется, из DeepMind'а) выучивают action-dependent control variate. Показывают, что метод круче, чем A2C
источник

АС

Артём С in RL reading group
Переслано от Артём С
источник

P

Pavel Shvechikov in RL reading group
"OptionGAN: Learning Joint Reward-Policy Options using Generative Adv. Inverse Reinf. Learning" arxiv.org/abs/1709.06683
источник
2017 October 29

AG

Aleksey Grinchuk in RL reading group
Distributional RL applied to policy gradient methods
https://openreview.net/forum?id=SyZipzbCb&noteId=SyZipzbCb
источник

OK

Oleg Kachan in RL reading group
будет ли обсуждение альфаго зиро?
источник

AG

Aleksey Grinchuk in RL reading group
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
1700 лет? 😒
источник

P

Pavel Shvechikov in RL reading group
Oleg Kachan
будет ли обсуждение альфаго зиро?
Да, хотелось бы обсудить Zero (возможно в контексте селф плея). Желающие рассказать про эту работу - напишите мне, пожалуйста.
источник

P

Pavel Shvechikov in RL reading group
[1709.04326] Learning with Opponent-Learning Awareness
https://arxiv.org/abs/1709.04326
источник

АС

Артём С in RL reading group
https://openreview.net/forum?id=BkUp6GZRW&noteId=BkUp6GZRW
> We propose Dual Actor-Critic algorithm, which is derived in a principled way from the Lagrangian dual form of the Bellman optimality equation. The algorithm achieves the state-of-the-art performances across several benchmarks.
источник
2017 October 30

📒

📒 in RL reading group
кто нибудь уже читал MAXIMUM ENTROPY EQUIVALENCE THEOREM, теор обоснование information bottleneck numeric experiments, вроде это самый топчик за 2к17 по DL https://openreview.net/pdf?id=r1kj4ACp-
источник