Size: a a a

RL reading group

2019 April 24

EZ

Evgenii Zheltonozhsk... in RL reading group
Dmitriy Krylov
Привет, а есть статейки на тему RL, когда у нас не дискретный набор действий?
Ну можно ж просто дискретизовать
источник

DK

Dmitriy Krylov in RL reading group
Evgenii Zheltonozhskii🇮🇱
Ну можно ж просто дискретизовать
Ну это понятно, но я имею ввиду, в общем случае, когда у нас по сути бесконечное пространство действий
источник

SK

Sergey Kolesnikov in RL reading group
continuous action space
источник

DK

Dmitriy Krylov in RL reading group
Sergey Kolesnikov
continuous action space
Thx
источник

П

Пётр in RL reading group
Dmitriy Krylov
Привет, а есть статейки на тему RL, когда у нас не дискретный набор действий?
DDPG
источник

АС

Артём С in RL reading group
Все policy gradient методы, не?
источник

П

Пётр in RL reading group
Артём С
Все policy gradient методы, не?
Policy gradient для непрерывных называется DDPG.
источник

AG

Aleksey Grinchuk in RL reading group
Я бы не называл DDPG policy gradient вообще. Это DQN в котором не имея возможности считать argmax Q, пытаются этот argmax зафитить сеткой.
источник

АС

Артём С in RL reading group
A3C вроде не deterministic
источник
2019 April 25

c

cydoroga in RL reading group
Dmitriy Krylov
Ну это понятно, но я имею ввиду, в общем случае, когда у нас по сути бесконечное пространство действий
Soft Actor Critic
Soft q learning
источник

c

cydoroga in RL reading group
Хотя во втором непрерывность действий даётся дорого:
Нужно уметь брать интергал по действиям в их софт максе
Они импортанс сэмплинг предлагают, не уверен, что это норм работает

И нужно уметь сэмплить действия из ~ exp(Q)
И для этого нужна отдельная сетка, которая только сэмплит
источник
2019 May 03

SK

Sergey Kolesnikov in RL reading group
чуток оживлю чатик, с вашего позволения
вдруг кому поможет
во славу RL
источник

SK

Sergey Kolesnikov in RL reading group
гайз, я тут дотюнил Catalyst.RL, чтобы держал непомерные нагрузки и быстро работал
share, like, repost :dushevnost:
https://twitter.com/Scitator/status/1124216371053830144?s=20
теперь можно на easy статьи DM за Atari повоспроизводить
источник

SK

Sergey Kolesnikov in RL reading group
собственно, а в чем сложность?
у Atari один observation - это картинка [84, 84, 1], вроде ничего complicated, за исключеним того, что таких картинок хранить ~1M, а то и 10M…в памяти….ибо ты по ним итерируешься постоянно и учишься
ну а 1M таких картинок - это ~7GB RAM… 10M - 70GB, короче, все печально становится…. особенно когда хочется несколько параллельно обучаться поставить

+ чтобы сихронизировать все между Train Node (которая как раз учит сетку) и Samplers Nodes (куча тредов, которые играют) нужна еще и DB какая… еще RAM

т.е. RAM жрется как не в коня

и чтобы как-то зарешать этот вопросик, приваял MongoDB + memmap… вжух-вжух и все (окей, большинство) хранится теперь на диске, а не на RAM и даже скорость не проседает
источник

SK

Sergey Kolesnikov in RL reading group
таким образом, Catalyst.RL сейчас - это кажись  первый RL framework, который нормально работает с такими нагрузками( + еще и распределенно, Карл!) и предоставляет easy to use возможности по кастомизации под свои задачи
источник

SK

Sergey Kolesnikov in RL reading group
если кто занимается off-policy RL - зацените плиз, реально что-то too much крутых фичей уже шмальнули
источник

P

Pavel Shvechikov in RL reading group
> 1M таких картинок - это ~7GB RAM... 10M - 70GB, короче, все печально становится….
Конвертнутая в uint8 и сжатая картинка занимает в районе 0.2kb, если хочется 10M то это в районе 2-3 GB RAM

updates_per_second — это количество батчей или переходов?
источник

P

Pavel Shvechikov in RL reading group
>  Catalyst.RL сейчас - это кажись  первый RL framework, который нормально работает с такими нагрузками
RLlib ?
источник

SK

Sergey Kolesnikov in RL reading group
Pavel Shvechikov
> 1M таких картинок - это ~7GB RAM... 10M - 70GB, короче, все печально становится….
Конвертнутая в uint8 и сжатая картинка занимает в районе 0.2kb, если хочется 10M то это в районе 2-3 GB RAM

updates_per_second — это количество батчей или переходов?
уже unit8
84 * 84 * 1 * 8 (bits) / 8 (b) / 1024 (kb) / 1024 (mb) / 1024 (gb) * 1M = ~7 GB
* 10M -> 70GB
источник

SK

Sergey Kolesnikov in RL reading group
updates_per_second - переходов
источник