Пример: ты хочешь научить нейронку играть в крестики-нолики.
Как училась бы нейронка с учителем: смотрела бы на примеры сыгранных людьми игр, и пыталась бы угадать, куда человек сделал следующий ход.
Как училась бы нейронка с подкреплением: играла бы с другим алгоритмом (или сама с собой), и делала бы полу-рандомные ходы, пытаясь при этом максимизировать вероятность выигрыша.
Соответственно, в чём плюсы обучения с учителем:
- теоретически позволяет выучивать принятие стратегических решений, т.е. на много ходов вперёд
- не требует много размеченных данных, т.к. сама размечает себе данные в ходе обучения
В чём основной минус:
- нужна очень хорошая модель "среды", которая подаёт сигналы и даёт вознаграждение. In real life, такую среду смоделировать очень сложно, а в реальной среде запускать эксперименты - дорого и опасно.
В случае игр типа крестиков-ноликов, шахмат, го, или простых видеоигр типа atari, эта среда полностью описывается правилами игры, и специально моделировать ничего не нужно, поэтому именно в этой области обучение с подкреплением достигло успеха.