Телеграмм чат группы theoreticalrl страница 16

То есть: изначально PG-теорема выведена для истинной Q-функции. Если мы меняем ее на аппроксимацию, то не факт что градиент остается верным (появляется смещение изза аппроксимации). Но вот типа если аппроксимация "хорошая" в смысле этих двух пунктов, то зашибись

источник

17:36пожаловаться #4

DP

Dmitry Persiyanov in RL reading group

Просто в статье DPG они эксперименты делают на compatible аппроксимациях, и я вот задумался, может есть статьи какие-то, где исследуют важность этого

источник

17:36пожаловаться #5

DP

Dmitry Persiyanov in RL reading group

Хотя, в статье DDPG они на это забивают и пилят критика нейросеткой, поэтому видимо надо по задаче смотреть

источник

17:44пожаловаться #6

2017 August 02

JH

Just Heuristic in RL reading group

Привет! Коллеги, на завтра срочно нужен ещё один докладчик. Есть ли желающие?

источник

17:37пожаловаться #7

JH

Just Heuristic in RL reading group

Коллеги, простите, завтра семинара не будет (не набралось желающих докладчиков).
Через неделю возобновим работу.

источник

22:03пожаловаться #8

2017 August 09

EZ

Evgenii Zheltonozhsk... in RL reading group

https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/

Deepmind

DeepMind and Blizzard open StarCraft II as an AI research environment

DeepMind's scientific mission is to push the boundaries of AI by developing systems that can learn to solve complex problems. To do this, we design agents and test their ability in a wide range of environments from the purpose-built DeepMind Lab to established games, such as Atari and Go.Testing our agents in games that are not specifically designed for AI research, and where humans play well, is crucial to benchmark agent performance. That is why we, along with our partner Blizzard Entertainment, are excited to announce the release of SC2LE, a set of tools that we hope will accelerate AI research in the real-time strategy game StarCraft II. The SC2LE release includes:A Machine Learning API developed by Blizzard that gives researchers and developers hooks into the game. This includes the release of tools for Linux for the first time.A dataset of anonymised game replays, which will increase from 65k to more than half a million in the coming weeks. An open source version of DeepMind’s toolset, PySC2, to allow…

источник

21:49пожаловаться #9

P

Pavel Shvechikov in RL reading group

Всем доброго вечера!
Завтра планируется наш очередной RL семинар, в ходе которого @gri_alex нас познакомит с новым подходом к решению задачи zero-shot transfer для задач обучения с подкреплением.
А чуть позже, @Omrigan расскажет о том, как с помощью RL подбирать архитектуру нейросети с ограничениями на максимальную скорость выполнения прямого прохода, на точность предсказания и прочими чудесами.

ВНИМАНИЕ
(1) Семинар завтра начнется в необычное время – в 19:30 !
(2) Если кто еще не записался в гуглоформу, но хочет прийти на семинар – пожалуйста заполните ее до конца сегодняшнего дня.

источник

21:50пожаловаться #10

AP

Anton Pechenko in RL reading group

SC2 крутяк!

источник

22:11пожаловаться #11

AG

Artem Grachev in RL reading group

Evgenii Zheltonozhskii🇮🇱

https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/

Deepmind