Size: a a a

RL reading group

2019 December 16

EZ

Evgenii Zheltonozhsk... in RL reading group
Sofia Potapova
А когда твиттеры, если не секрет?
?
источник

CT

Cookie Thief in RL reading group
Petr Kuderov
ребята, у меня тут назрел вопрос - а как вы следите за новыми интересными статьями и/или за их разборами/реализациями? Какие-то конкретные блоги, реддит каналы, твиттер-акки или что-то еще?

Интересно и с точки зрения слежения за областью в целом (т.е. просто highlights по новому в области), и с точки зрения каких-то конкретных тематик/подобластей.
Твитор - достаточно удобная штука для этого, у них неплохо выстроена система рекомендации контента)
А еще есть всякие еженедельные дайджесты, типо https://www.deeplearning.ai/thebatch/
источник

CT

Cookie Thief in RL reading group
Ещё в плюс к твитору - авторы статей зачастую пишут там tldr
источник

PK

Petr Kuderov in RL reading group
Cookie Thief
Твитор - достаточно удобная штука для этого, у них неплохо выстроена система рекомендации контента)
А еще есть всякие еженедельные дайджесты, типо https://www.deeplearning.ai/thebatch/
Да, спасибо, на Ыновский дайджест тоже подписан - формат краткого описания+мнения, по-моему, очень неплох )
источник

CT

Cookie Thief in RL reading group
Есть ещё неплохой https://thegradient.pub и шикарный блог Рудера)
источник

SP

Sofia Potapova in RL reading group
*какие Твиттер аккаунты)
источник

SI

Savva Ignatyev in RL reading group
Sofia Potapova
*какие Твиттер аккаунты)
присоединяюсь к вопросу
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Sofia Potapova
*какие Твиттер аккаунты)
источник

PK

Petr Kuderov in RL reading group
Sofia Potapova
*какие Твиттер аккаунты)
У большинства из тех, кого Евгений фолловит, есть описание, так что там просто стоит пройтись по списку и подписаться на тех, кто кажется интересным, а позже отфильтровать ленту
источник
2019 December 18

n

nnnik in RL reading group
Описание игры
Вместо чашек к весам  прикреплены бесконечные сосуды/кувшины с регулируемым диаметром входного отверстия.
Макс. диаметры вх. отверстий кувшинов разные и известы, минимальные == 0 у обоих.
Изначально оба сосуда пусты или в них одинаковое кол-во воды — весы находятся в равновесии.
Начало игры — начался дождь.
Справа и слева от весов он случайный независимый от сторон.
Дождь начинается и заканчивается случайно одновременно справа и слева.
Окончание дождя — окончание игры

Задача:
1. Собрать как можно больше воды в кувшины, управляя диаметром вх. отверстий кувшинов.
2. Весы к окончанию дождя быть как можно ближе к точке равновесия.
3. Во время дождя не допустить разницы в весе кувшинов более чем 5%
4. Данные о ходе дождя можно представить как лог из полей:
datetime, сторона, вес_капли, расстояние_от_центра_входного_отверстия_кувшина

Плз, помогите решить - куда копать?
к какой типовой задаче RL проще свести? к тележке?
Заранее спасибо за все рекомендации и/или ссылки.
источник
2019 December 19

SI

Savva Ignatyev in RL reading group
Такой вопрос. Кто-нибудь знает статьи (лучше ревью) об обучении сетей НЕ бекпропагейшном. Особенно интересует случай дискретных активаций, недифференцируемых и интересует этот вопрос в перспективе РЛ (т.е. нейроны это агенты, обучаемые РЛ методами)
источник
2019 December 20

c

cydoroga in RL reading group
Savva Ignatyev
Такой вопрос. Кто-нибудь знает статьи (лучше ревью) об обучении сетей НЕ бекпропагейшном. Особенно интересует случай дискретных активаций, недифференцируемых и интересует этот вопрос в перспективе РЛ (т.е. нейроны это агенты, обучаемые РЛ методами)
Ну первое что приходит в голову - evolution strategies и всякие генетические алгоритмы.
Гуглится вроде легко, но если надо, могу пособирать статей
источник

VM

Vladislav Myrov in RL reading group
погуглите как спайкинговые сети учат
источник

S

Sergey in RL reading group
Vladislav Myrov
погуглите как спайкинговые сети учат
На ум приходит чисто биологически-инспирированное обучение. Как там это происходит? "Шипики" периодически растут в рандомных направлениях, ну и потом применяется правило Хебба при работе сети
источник

AB

Alexey Boyko in RL reading group
Savva Ignatyev
Такой вопрос. Кто-нибудь знает статьи (лучше ревью) об обучении сетей НЕ бекпропагейшном. Особенно интересует случай дискретных активаций, недифференцируемых и интересует этот вопрос в перспективе РЛ (т.е. нейроны это агенты, обучаемые РЛ методами)
Если для mdp/control, то есть еще тензорные подходы :)

Они не бекпропом, а итеративно решаются
источник

SI

Savva Ignatyev in RL reading group
Всем спасибо за ответы
источник

SI

Savva Ignatyev in RL reading group
Alexey Boyko
Если для mdp/control, то есть еще тензорные подходы :)

Они не бекпропом, а итеративно решаются
А можно ссылочку?
источник

AB

Alexey Boyko in RL reading group
Ну Value/Policy Iteration
источник

AB

Alexey Boyko in RL reading group
Которые можно делать на тензорных сетях
источник

CP

Cherry Pie in RL reading group
Братцы, а кто-то будет на дата-ёлке?
источник