Ilya Brodskiy
Всем привет!
по градиентному бустингу тоже вопрос
вот в лекции говорится, что нам для каждого нового алгоритма b(x) нужно находить градиентным спуском значения, которые он должен прогнозировать,
вопрос зачем?
мы знаем значение целевой переменной Yi, мы знаем сумму прогнозов всех предыдущих алгоритмов. Очевидно, что таргет для нового алгоритма - это разность между целевым таргетом Yi и суммой предыдущих прогнозов
ну то есть значение целевой переменной для одного объекта, скажем = 10 (задача регрессии)
первый алгоритм дал прогноз 6, значит таргет для второго 10-6 = 4
второй дал 3, значит таргет для третьего 10 - 6 - 3 = 1 и.т.д.
зачем градиентный спуск тут? в чем не прав? :)
В градиентном бустинге на каждой новой итерации предсказываются значения антиградиента, оптимизируемой нами функции. В случае использования квадратичного лосса в задаче регрессии производная у нас как раз и будет равняться привычному нами остатку (домноженному на -2 только). В случае же, например, решения задачи бинарной классификации мы уже будем приближать антиградиент логлосса на каждой итерации.
Потому собственно бустинг и градиентный