на курсере в его курсе "теорвер для начинающих" есть видео семинаров, но там разбор задач, которые самому не решить, это скорее лекция по практике
В этом проблема всех площадок: >За 5 минут мы расскажем вам о том, как рисуют коней: >"Конь состоит из лап, тела, головы и хвоста" >Практика >Нарисуйте фотореалистичного коня с нуля
В градиентном бустинге на каждой новой итерации предсказываются значения антиградиента, оптимизируемой нами функции. В случае использования квадратичного лосса в задаче регрессии производная у нас как раз и будет равняться привычному нами остатку (домноженному на -2 только). В случае же, например, решения задачи бинарной классификации мы уже будем приближать антиградиент логлосса на каждой итерации.
Потому собственно бустинг и градиентный
То есть мы получается новый алгоритм всегда обучаем на разности между правильным ответом и ошибкой предыдущего алгоритма, но только за один шаг градиентного спуска?
b - забовый алгоритм, a - наше решение, оно строится как сумма (с весами) базовых алгоритом. каждый следующий базовый алгоритм улучшает не предыдущий базовый алгоритм, а всё наше решение (сумма всех предыдущих базовых)
b - забовый алгоритм, a - наше решение, оно строится как сумма (с весами) базовых алгоритом. каждый следующий базовый алгоритм улучшает не предыдущий базовый алгоритм, а всё наше решение (сумма всех предыдущих базовых)
А, понял, спасибо А зачем тогда градиентный спуск? Обучали бы деревья/регрессии на разности между правильным ответом и суммой прогнозов предыдущих алгоритмов....?
А, понял, спасибо А зачем тогда градиентный спуск? Обучали бы деревья/регрессии на разности между правильным ответом и суммой прогнозов предыдущих алгоритмов....?
по видимому для оптимизации обучения: чтобы не случайным образом подбирались веса, а в заданном направлении. ибо каждый градиент имеет направление
Сначала строится отдельное дерево, потом спуском подбирается вес который соответствует этому дереву. Веса подбираются не на все деревья сразу, а жадным путем по одному
То есть мы получается новый алгоритм всегда обучаем на разности между правильным ответом и ошибкой предыдущего алгоритма, но только за один шаг градиентного спуска?
В градиентном бустинге мы совершаем градиентный спуск в пространстве базовых алгоритмов. Добавление каждого нового базового алгоритма — это эдакое обновление нашей общей композиции алгоритмов. Каждый базовый алгоритм при этом на каждой итерации приближает вектор антиградиента.
Добрый день. 2 курс, 3-я неделя. sklearn.case_part2 На этапе обучения Pipline: "estimator.fit(train_data, train_labels)" выдаётся ошибка: 'numpy.ndarray' object has no attribute 'iloc'