Телеграмм чат группы theoreticalrl страница 138

Хотя во втором непрерывность действий даётся дорого:
Нужно уметь брать интергал по действиям в их софт максе
Они импортанс сэмплинг предлагают, не уверен, что это норм работает

И нужно уметь сэмплить действия из ~ exp(Q)
И для этого нужна отдельная сетка, которая только сэмплит

источник

10:23пожаловаться #11

2019 May 03

Sergey Kolesnikov in RL reading group

чуток оживлю чатик, с вашего позволения
вдруг кому поможет
во славу RL

источник

11:11пожаловаться #12

Sergey Kolesnikov in RL reading group

гайз, я тут дотюнил Catalyst.RL, чтобы держал непомерные нагрузки и быстро работал
share, like, repost :dushevnost:
https://twitter.com/Scitator/status/1124216371053830144?s=20
теперь можно на easy статьи DM за Atari повоспроизводить

Twitter

Sergey Kolesnikov

RL is very resource intensive... but not for Catalyst.RL Check out our new example with Atari Env & 10M ReplayBuffer - 80 minutes - 24 samplers - 1 GPU - 5k updates per second - and only 12GB RAM usage https://t.co/NM2cILspoN PS works with master branch, release is on its way

источник

11:11пожаловаться #13

Sergey Kolesnikov in RL reading group

собственно, а в чем сложность?
у Atari один observation - это картинка [84, 84, 1], вроде ничего complicated, за исключеним того, что таких картинок хранить ~1M, а то и 10M…в памяти….ибо ты по ним итерируешься постоянно и учишься
ну а 1M таких картинок - это ~7GB RAM… 10M - 70GB, короче, все печально становится…. особенно когда хочется несколько параллельно обучаться поставить

+ чтобы сихронизировать все между Train Node (которая как раз учит сетку) и Samplers Nodes (куча тредов, которые играют) нужна еще и DB какая… еще RAM

т.е. RAM жрется как не в коня

и чтобы как-то зарешать этот вопросик, приваял MongoDB + memmap… вжух-вжух и все (окей, большинство) хранится теперь на диске, а не на RAM и даже скорость не проседает

источник

11:12пожаловаться #14

Sergey Kolesnikov in RL reading group

таким образом, Catalyst.RL сейчас - это кажись первый RL framework, который нормально работает с такими нагрузками( + еще и распределенно, Карл!) и предоставляет easy to use возможности по кастомизации под свои задачи

источник

11:12пожаловаться #15

Sergey Kolesnikov in RL reading group

если кто занимается off-policy RL - зацените плиз, реально что-то too much крутых фичей уже шмальнули

источник

11:13пожаловаться #16

Pavel Shvechikov in RL reading group

> 1M таких картинок - это ~7GB RAM... 10M - 70GB, короче, все печально становится….
Конвертнутая в uint8 и сжатая картинка занимает в районе 0.2kb, если хочется 10M то это в районе 2-3 GB RAM

updates_per_second — это количество батчей или переходов?

источник

11:46пожаловаться #17

Pavel Shvechikov in RL reading group

> Catalyst.RL сейчас - это кажись первый RL framework, который нормально работает с такими нагрузками
RLlib ?

источник

11:48пожаловаться #18

Sergey Kolesnikov in RL reading group

Pavel Shvechikov

уже unit8
84 * 84 * 1 * 8 (bits) / 8 (b) / 1024 (kb) / 1024 (mb) / 1024 (gb) * 1M = ~7 GB
* 10M -> 70GB

источник

11:48пожаловаться #19

Sergey Kolesnikov in RL reading group

updates_per_second - переходов

источник

11:51пожаловаться #20