Size: a a a

Machine learning

2020 June 04

AO

Alex Ololo in Machine learning
цель сделать модель более линейной и как след-ие распределение остатков нормальным ?
источник

K

K-S in Machine learning
Бокса кокса вроде везде можно использовать, где у вас таргет не очень нормальный
источник

K

K-S in Machine learning
Alex Ololo
цель сделать модель более линейной и как след-ие распределение остатков нормальным ?
Цель чего?
источник

AO

Alex Ololo in Machine learning
ну например мсе использовать
источник

AO

Alex Ololo in Machine learning
я так понимаю оно лучше работает при линейности модели
источник

K

K-S in Machine learning
Линейные модели не очень хорошо отрабатывают, если распределение таргета сильно скошено. Поэтому чтоб это хотя б частично исправить используют логарифмирование/бокса кокса итд.

Не понял ваш вопрос
источник

AO

Alex Ololo in Machine learning
K-S
Линейные модели не очень хорошо отрабатывают, если распределение таргета сильно скошено. Поэтому чтоб это хотя б частично исправить используют логарифмирование/бокса кокса итд.

Не понял ваш вопрос
но вы ответили))
пс.
Бустинг, конечно, не так чувствителен к распределению таргета как линейные модели, но все же иногда приведение распределения таргета к более нормальному виду помогает . почему интересно помогает? эвристика?
источник

K

K-S in Machine learning
Ну... если откровенно, то по факту — да. По идее за этим фактом действительно должна стоять математика, но логарифмирование работает действительно не всегда, а если и работает, то прирост совсем небольшой (даже на уровне соревнований небольшой), поэтому воспринимается это все как эвристика.

Что до других лоссов, то здесь все более понятно, хотя на практике результаты действительно очень слабо отличаются: будете ли вы для скошенного таргета использовать рмсе или тот же tweedie. Я один раз его использовал для соревнования, результат был стабильно лучше, но стабильно лучше в третьем знаке после запятой, поэтому можно вообще на эту тему сильно не заморачиваться
источник

AO

Alex Ololo in Machine learning
K-S
Ну... если откровенно, то по факту — да. По идее за этим фактом действительно должна стоять математика, но логарифмирование работает действительно не всегда, а если и работает, то прирост совсем небольшой (даже на уровне соревнований небольшой), поэтому воспринимается это все как эвристика.

Что до других лоссов, то здесь все более понятно, хотя на практике результаты действительно очень слабо отличаются: будете ли вы для скошенного таргета использовать рмсе или тот же tweedie. Я один раз его использовал для соревнования, результат был стабильно лучше, но стабильно лучше в третьем знаке после запятой, поэтому можно вообще на эту тему сильно не заморачиваться
спасибо большое.
п.с. на текущем сореве по M5 - распределение скошенное и с  большим кол-ом нулей и твидди дейсвтительно лучше работает..
источник

K

K-S in Machine learning
Alex Ololo
спасибо большое.
п.с. на текущем сореве по M5 - распределение скошенное и с  большим кол-ом нулей и твидди дейсвтительно лучше работает..
О, М5) вы решаете?
источник

AO

Alex Ololo in Machine learning
K-S
О, М5) вы решаете?
в процессе) пытаюсь обжектив написать. там метрика какой то мрак) плюс так и не решил что с валидацией делать)
источник

K

K-S in Machine learning
Alex Ololo
в процессе) пытаюсь обжектив написать. там метрика какой то мрак) плюс так и не решил что с валидацией делать)
А железом вытягиваете? А то там ведь данных очень много. Я как-то забил из-за этого
источник

K

K-S in Machine learning
Но метрика там — да
источник

AO

Alex Ololo in Machine learning
K-S
А железом вытягиваете? А то там ведь данных очень много. Я как-то забил из-за этого
нет) не вытягиваю) потмоу обрежу половину) и пусть будет что будет)
источник

M

Mate in Machine learning
Привет. Можете проверить дз по визуализации данных? Уже несколько дней висит:( C3W3
https://www.coursera.org/learn/unsupervised-learning/peer/ATLR5/vizualizatsiia-dannykh/review/1S_PLqPwEeqK7AoiSeRm3w
источник

IN

Ivan Nazhestkin in Machine learning
Всем привет)
А никто не может подсказать вот такую вещь: умеет ли sklearn учиться по батчам? Можно ли загрузить в память только часть выборки, обучить Pipeline на ней, потом загрузить другую часть, дообучить на ней Pipeline и так несколько раз?
И если нет, то какие могут быть альтернативы?)
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
да. я про это.
по этой же причине бокса кокса  юзают во временных рядах?
К примеру, для аримы его используют, чтобы стабилизировать дисперсию и сделать ряд стационарным. Просто иначе модель использовать некорректно, а предсказания не будут учитывать переменную дисперсию. Логарифмирование- его частный случай. Также удобно использовать преобразование yeo-johnson для приведения к нормальному распределению значения знакопеременного отклика.
источник

А

Артем in Machine learning
вопрос.
решил из любопытства  попрактиковать линейные модели на числах Фибоначчи. тренировочный датасет - предыдущие 2 числа Фибоначчи для каждого ответа.
Ожидал вполне предсказуемый результат с коэффициентами 1 и 1, никакого шума в данных нет. Но обнаружилось странное. зависимость полностью  восстанавливается дефолтной LinearRegression()  при минимальной выборке уже в 5-10 обьектов. но по мере роста обьема тренировочных данных, начиная с 50 обьектов и далее, результат начинает портиться... и постепенно сходится к коэф. 0.72 и 1.17.
Есть идеи, как это трактовать?
источник

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
Всем привет)
А никто не может подсказать вот такую вещь: умеет ли sklearn учиться по батчам? Можно ли загрузить в память только часть выборки, обучить Pipeline на ней, потом загрузить другую часть, дообучить на ней Pipeline и так несколько раз?
И если нет, то какие могут быть альтернативы?)
Могу ошибаться, но большинство моделей не особо дружат с идеей онлайн алгоритма и не дообучаются. Для временных рядов и аримы присутствует возможность применения фильтра Калмана и учитывания дополнительных измерений в уже обученной модели , но это, как я понимаю, не совсем по теме...
источник

A

Adilet in Machine learning
Ivan Nazhestkin
Всем привет)
А никто не может подсказать вот такую вещь: умеет ли sklearn учиться по батчам? Можно ли загрузить в память только часть выборки, обучить Pipeline на ней, потом загрузить другую часть, дообучить на ней Pipeline и так несколько раз?
И если нет, то какие могут быть альтернативы?)
Дообучать модель?
источник