Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 August 17

ИА

Илья Аверин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Использую json с гитхаба Kreozot
источник

S

Stacy in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Добрый вечер, у меня наверно банальный вопрос, но все же: что такое обучение с подкреплением?
источник

GA

Georgiy Ashkar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Stacy
Добрый вечер, у меня наверно банальный вопрос, но все же: что такое обучение с подкреплением?
Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.
источник

S

Stacy in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Я читала, но можно как-то своими словами, может на примере даже
источник

S

Stacy in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
А то не совсем понятно
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Stacy
Я читала, но можно как-то своими словами, может на примере даже
Пример: ты хочешь научить нейронку играть в крестики-нолики.
Как училась бы нейронка с учителем: смотрела бы на примеры сыгранных людьми игр, и пыталась бы угадать, куда человек сделал следующий ход.
Как училась бы нейронка с подкреплением: играла бы с другим алгоритмом (или сама с собой), и делала бы полу-рандомные ходы, пытаясь при этом максимизировать вероятность выигрыша.
источник

S

Stacy in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Пример: ты хочешь научить нейронку играть в крестики-нолики.
Как училась бы нейронка с учителем: смотрела бы на примеры сыгранных людьми игр, и пыталась бы угадать, куда человек сделал следующий ход.
Как училась бы нейронка с подкреплением: играла бы с другим алгоритмом (или сама с собой), и делала бы полу-рандомные ходы, пытаясь при этом максимизировать вероятность выигрыша.
Спасибо, вроде как все понятнее стало!
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Пример: ты хочешь научить нейронку играть в крестики-нолики.
Как училась бы нейронка с учителем: смотрела бы на примеры сыгранных людьми игр, и пыталась бы угадать, куда человек сделал следующий ход.
Как училась бы нейронка с подкреплением: играла бы с другим алгоритмом (или сама с собой), и делала бы полу-рандомные ходы, пытаясь при этом максимизировать вероятность выигрыша.
Соответственно, в чём плюсы обучения с учителем:
- теоретически позволяет выучивать принятие стратегических решений, т.е. на много ходов вперёд
- не требует много размеченных данных, т.к. сама размечает себе данные в ходе обучения
В чём основной минус:
- нужна очень хорошая модель "среды", которая подаёт сигналы и даёт вознаграждение. In real life, такую среду смоделировать очень сложно, а в реальной среде запускать эксперименты - дорого и опасно.

В случае игр типа крестиков-ноликов, шахмат, го, или простых видеоигр типа atari, эта среда полностью описывается правилами игры, и специально моделировать ничего не нужно, поэтому именно в этой области обучение с подкреплением достигло успеха.
источник

S

Stacy in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Спасибо!
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
пытаюсь понять интуитивно почему выделенные фразы верны. Насколько я понимаю, если в многомерном функции одно из weights дает высокое значение градиента, оно получит относительно большое соотношение к сумме, значит значительнее будет влиять на направление спуска (к минимуму), но почему когда многомерная поверхность более менее прямая будет ускорение, а когда с большими магнитудами, она будет притормаживаться от такой конфигурации этой вариации градиаент десценда, может кто интуицию дать ?
источник
2020 August 18

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
пытаюсь понять интуитивно почему выделенные фразы верны. Насколько я понимаю, если в многомерном функции одно из weights дает высокое значение градиента, оно получит относительно большое соотношение к сумме, значит значительнее будет влиять на направление спуска (к минимуму), но почему когда многомерная поверхность более менее прямая будет ускорение, а когда с большими магнитудами, она будет притормаживаться от такой конфигурации этой вариации градиаент десценда, может кто интуицию дать ?
Я бы это объяснил как, если у нас раньше по параметру была большая магнитуда, а теперь маленькая, то лучше не сильно менять...
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
пытаюсь понять интуитивно почему выделенные фразы верны. Насколько я понимаю, если в многомерном функции одно из weights дает высокое значение градиента, оно получит относительно большое соотношение к сумме, значит значительнее будет влиять на направление спуска (к минимуму), но почему когда многомерная поверхность более менее прямая будет ускорение, а когда с большими магнитудами, она будет притормаживаться от такой конфигурации этой вариации градиаент десценда, может кто интуицию дать ?
Большие градиенты -> g>1 -> dx/g уменьшается
Маленькие -> g<1 -> dx/g увеличивается
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
круто, ясно, спасибо
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Именно их тезис я бы объяснил как, если у нас постоянно небольшие изменения, то сильно изменяется, но если у нас они резко меняются, то в эта сумма помнит тот большой градиент и соответственно, не даёт параметру сильно увеличиваться, чтобы такой ситуации не было, надо уменьшать равномерно
источник

М

Михаил in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребята всем привет, ставится задача убирать китайский/русский и тд акцент и преобразовывать в английский акцент, все это в реал тайме, в какую сторону рыть?
источник

A

Alexandr in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Михаил
Ребята всем привет, ставится задача убирать китайский/русский и тд акцент и преобразовывать в английский акцент, все это в реал тайме, в какую сторону рыть?
В сторону цифровой обработки сигналов
источник

VM

Vladimir Mironov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Evgenii Zheltonozhskii🇮🇱
Большие градиенты -> g>1 -> dx/g уменьшается
Маленькие -> g<1 -> dx/g увеличивается
Кстати если хочешь подтянуть математику есть такой вот вот канал t.me/ViyshMat
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Да не, мне моего бакалавра по математике хватает, спасибо
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребят, а как я могу улучшить точность модели используя
http://projector.tensorflow.org/
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
?
источник