Size: a a a

Machine learning

2020 July 04

IB

Ilya Brodskiy in Machine learning
K-S
Формулировка «таргеты вычисляется градиентным спуском» — явная мешанина. Таргеты — это антиградиенты. В случае с регрессией они равны остатку (домноженному на -2), но это просто частный случай. Возьмите производную от (y-y_hat)^2 по y_hat, где y_hat — это прогноз нашей композиции
Смотрите
У меня целевой таргет, допустим y=10
Вычисляю первый алгоритм y_hat1=6
Далее считаем антиградиент для функционала (y-y_hat1)^2=
-2(y-y_hat1)
так?
Получается таргет для второго алгоритма -2*(10-6) ?
источник

K

K-S in Machine learning
Ilya Brodskiy
Смотрите
У меня целевой таргет, допустим y=10
Вычисляю первый алгоритм y_hat1=6
Далее считаем антиградиент для функционала (y-y_hat1)^2=
-2(y-y_hat1)
так?
Получается таргет для второго алгоритма -2*(10-6) ?
Только знак перед двойкой не -, а + будет, поскольку нам интересен именно антиградиент (направление наискорейшего убывания)
источник

АГ

Артём Глазунов... in Machine learning
Alina Golkina
Нереально долго считает, поэтому я уже частями подбираю и вручную.🤦‍♀не кидайте тапками
Просто грид серч на кросс валидации основан и оптимизирует параметры на ней, делает разбиения трейн n раз, меняя валидационную и обучающаю часть местами, грубо говоря. Вручную на всей трейн части  и валидации будет качество больше, вот что я имею в виду.
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
грид серч. такая себе тема. можем запросто поимать пик случайно и модель переобучится ( это как при тестировании не делать поправку на множественность)
потому лушче при валидации смотреть на на изменение метрики каким нить тестом (например тестом стьюдента)
Можно просто смотреть не на среднее значение на кросс валидации, а на все значения на фолдах, особенно на крайние, легче понять, где отличия значимы.
источник

IB

Ilya Brodskiy in Machine learning
K-S
Только знак перед двойкой не -, а + будет, поскольку нам интересен именно антиградиент (направление наискорейшего убывания)
Получается таргет для второго алгоритма будет 2*(10-6)=8 ???
Почему так? Надо же на таргет 10-6=4
источник

AG

Artyom Gruzdev in Machine learning
я вам тетрадку отправил, там все расписано
источник

AG

Artyom Gruzdev in Machine learning
и не забывайте, что бустинг начинается с константной модели
источник

IB

Ilya Brodskiy in Machine learning
Окей, спасибо
Просто сейчас нет возможности посмотреть
источник

K

K-S in Machine learning
Ilya Brodskiy
Получается таргет для второго алгоритма будет 2*(10-6)=8 ???
Почему так? Надо же на таргет 10-6=4
Что значит должна? Двойка в данном случае — константа. Она для всех ваших наблюдений одинакова.
источник

AO

Alex Ololo in Machine learning
Артём Глазунов
Можно просто смотреть не на среднее значение на кросс валидации, а на все значения на фолдах, особенно на крайние, легче понять, где отличия значимы.
Не. Можно на выбросах переучиться.
на хабре лежит разбо сорева по мерседес. Там описана такая проблема
источник

AO

Alex Ololo in Machine learning
Как мы поймем что отличия значимы?
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
Не. Можно на выбросах переучиться.
на хабре лежит разбо сорева по мерседес. Там описана такая проблема
Просто смотреть на валидации это ведь тоже случайный алгоритм, один шаг кросс-валидации всего-лишь, лучше сделать несколько попыток и посмотреть на качество на каждой, после этого сделать вывод самому, а не Best estimator.
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
Как мы поймем что отличия значимы?
Мы не можем понять это точно никак, поскольку фолдов слишком мало, чтобы применять критерии)  надо смотреть не на средние, а на все значения на всех фолдах, тогда хоть что-то...
источник

АГ

Артём Глазунов... in Machine learning
А просто холд аут это как раз и элемент случайности... Чем больше измерений, тем точнее должно быть, в этом и принцип статистики...
источник

АГ

Артём Глазунов... in Machine learning
Просто для cv на 3-7 фолдов статистики не особенно показательны... при доводке алгоритма. Поэтому лучше смотреть на все значения на фолдах...
источник

AG

Artyom Gruzdev in Machine learning
Ilya Brodskiy
Окей, спасибо
Просто сейчас нет возможности посмотреть
кинул в личку материал, чтоб тут не мусорить
источник

AG

Artyom Gruzdev in Machine learning
Алексей
Привет, подскажите. Используя регрессию Lasso, каким методом находятся веса для коэффициентов? При помощи SGD или умножением на псевдообратную матрицу?
сейчас чаще всего используют координатный. например, в H2O так.
источник

AG

Alina Golkina in Machine learning
Артём Глазунов
Просто для cv на 3-7 фолдов статистики не особенно показательны... при доводке алгоритма. Поэтому лучше смотреть на все значения на фолдах...
Может я не так объяснила: Вот я получила best параметры гридсерчем, потом на этих параметрах обучила модель, на тесте получила определенное качество...потом на этом же train/test при других параметрах полусила качество намного лучше. .или так нельзя проверить...
источник

АГ

Артём Глазунов... in Machine learning
Alina Golkina
Может я не так объяснила: Вот я получила best параметры гридсерчем, потом на этих параметрах обучила модель, на тесте получила определенное качество...потом на этом же train/test при других параметрах полусила качество намного лучше. .или так нельзя проверить...
Это означает, что средние значения метрики в грид серч не показательны, это нормально
источник

АГ

Артём Глазунов... in Machine learning
Качество это случайная величина, у неё есть доверительный интервал.
источник