Size: a a a

Machine learning

2021 January 05

K

K-S in Machine learning
Ibp
а в чем кстати разница?
в 90% соревнований вам даётся трейн данные, лейблы для трейна и тестовые данные без лейбла. Вы обучаете модель, а потом делаете предсказания для тестовой выборки и засылаете ваше предсказания на сервер организатора (каггла, например). Там в свою очередь тестовый набор данных подразделяется на два поднабора: паблик и приват (соотношения этого разбиения отличаются от соревнования к соревнования. Зачастую бывают 30:70 или даже 20:80). Так вот, вы засылаете свои предсказания, на сервере рассчитывается показатель качества и для паблика и для привата, но вам показывается лишь качество вашей модели на паблике. То есть по сути вы видите качество ваших предсказаний лишь по 20-30%  теста. Итоговые же места, деньги, медали распределяются исходя из качества, показанного на скрытой приватной части.
источник

I

Ibp in Machine learning
ну а после засылки предсказания, вы же видите 2 скора, как паблик так и приват же, нпример в kaggle api?
источник

K

K-S in Machine learning
Ibp
ну а после засылки предсказания, вы же видите 2 скора, как паблик так и приват же, нпример в kaggle api?
нет, только паблик. Приват вы видите лишь по окончании соревнования
источник

I

Ibp in Machine learning
ну в принципе это тот же метод для борьбы с подбором, только вид сбоку
источник

K

K-S in Machine learning
то есть приват по сути и играет тут роль эдакого контроля, да. Но просто штука в том, что зачастую разница в качестве между соседними участниками на этих отложеннных данных невероятно маленькая, из-за чего сложно говорить, что участник с более высоким скором действительно построил модель с лучшей предсказательной способностью. Вполне возможно что ему просто чуть больше повезло на конкретно этом наборе отложенных данных.
источник

DT

Denis Tolstoukhov in Machine learning
Коллеги, всем доброй ночи !

закончил 5 курс и вспомнил, что к 1 курсу не приложил скрин по установке питона еще полгода назад.
у кого есть доступ к C1, прокликайте плез
https://www.coursera.org/learn/mathematics-and-python/peer/2yTvX/ustanovka-python/review/Lr-eI07hEeu-rxL4NzDiiw
источник

i

igor in Machine learning
Sergey Salnikov
ну да, но всё равно, получается мы обучаем на train-test части несколько моделей, и сравниваем их на контроле - какая модель лучше. да, там скор будет отличаться от cv, но насколько оправдано сравнение моделей на одном фолде?
Это не так работает
источник

DP

Dmitry Penzar in Machine learning
Артём Глазунов
Что думаете по поводу следующего подхода: разделить выборку на трейн и тест, затем получить n скоров, обучая n раз модель на бутстрапированных сэмплах из  трейн и проверяя на n бутстрапированных сэмплах из тест. Тут есть, наверное, небольшое нарушение iid в связи с пересечение данных, но в связи со случайностью бутстрэпа, оно, вероятно, небольшое, подвыборки всегда разные. Здесь может и т тест зайти ведь на скоры, хотя кажется, что все равно как-то не вариативно... В таком случае, можно повысить вариативность, каждый раз сэмплируя из случайной подвыборки без возвращения размера, скажем, 0.5 от исходной выборки...
Ну у вас и для kfold тоже будет "небольшое". Те же проблемы
источник

DP

Dmitry Penzar in Machine learning
K-S
так вроде те же грабли --нет? Выборка-то исходная одна и та же. Поэтому то что вы как-то ее нарезаете не делает наблюдения i.i.d.
Да причем здесь iid наблюдений.. не про него разговор же
источник

DP

Dmitry Penzar in Machine learning
Ibp
ну как бы лучше сделать так: если заниматься коссвалидацией, например, то разделить все на тренировочный набор и отложенный. отложенный вообще не трогать во время обучения. после оценки алгоритмов с кроссвалидацией на тренировочном сделать попарную оценку о статистической значимости их решений с помощью теста 5x2cv paired t test и потом те которые будут в группе статистически значимых с самыми высокими скорами проверить на отложенной выборке и выбрать тот который покажет лучший результат. так наверное http://rasbt.github.io/mlxtend/user_guide/evaluate/paired_ttest_5x2cv/
Ну прочтите спор, уже обсуждали
источник

DP

Dmitry Penzar in Machine learning
Ibp
на соревнованиях, вообще можно перебором без всяких моделей получить высокий результат, поэтому там и есть часто ограничения на количество отправляемых решений в день
? Приват лидербоард. На паблик переобучайтесь сколько душе угодно
источник

АГ

Артём Глазунов... in Machine learning
Dmitry Penzar
Ну у вас и для kfold тоже будет "небольшое". Те же проблемы
Думаете? Кажется, что явно больше для к фолд засчёт того, что модель обучена на фолде, а потом ещё и тестируется на другом, в результате фолды и метрики связаны... Тут же этой связи нет, но есть предполагаемая корреляции сэмплов, которая тем меньше, чем меньше размер бутстрап сэмпла... Но, в вопросе независимости интуиция плохой друг.. Тут надо или источники найти, где измерения корреляции для подобных метрик, либо самому пробовать...
источник

DP

Dmitry Penzar in Machine learning
Sergey Salnikov
т.е. та модель, что лучше всего показала себя на контроле, считается как лучшая? но ещё раз - чем этот контроль лучше другого фолда в cv сплитах? почему он особенный? на нём же тоже может быть статистическая погрешность
Он особенный, ибо в идеале вы его трогаете 1 раз, когда модель уже лучшую (одну) проверяете. Ну или когда моделей осталось мало.

А так - если на test проверяют миллионы моделей, то проблема, разумеется будет. И она есть.
источник

DP

Dmitry Penzar in Machine learning
Артём Глазунов
Думаете? Кажется, что явно больше для к фолд засчёт того, что модель обучена на фолде, а потом ещё и тестируется на другом, в результате фолды и метрики связаны... Тут же этой связи нет, но есть предполагаемая корреляции сэмплов, которая тем меньше, чем меньше размер бутстрап сэмпла... Но, в вопросе независимости интуиция плохой друг.. Тут надо или источники найти, где измерения корреляции для подобных метрик, либо самому пробовать...
А, вы бутстрэп делаете на трэйн только. Простите, спросонья криво прочел. Ну вы фактически предлагаете делать бутстрэп оценку ту же
источник

АГ

Артём Глазунов... in Machine learning
Dmitry Penzar
А, вы бутстрэп делаете на трэйн только. Простите, спросонья криво прочел. Ну вы фактически предлагаете делать бутстрэп оценку ту же
Нет, ещё на тесте, плюс сабсэмплы перед бутстрапом
источник

АГ

Артём Глазунов... in Machine learning
Получаем квази разные выборки
источник

DP

Dmitry Penzar in Machine learning
Ну полученные модели энивей не будут независимыми
источник

АГ

Артём Глазунов... in Machine learning
Согласен, где-то будут пересечения, но должны быть меньше... Но вот вопрос, посмотреть бы примеры экспериментов с бутстрап ом, где проводят измерения степени зависимости от размера
источник

DP

Dmitry Penzar in Machine learning
Представьте, что учите вы SVM. Она использует очень малую долю выборки для построения решения. У вас тогда почти любая SVM будет учить одни и те же веса.
источник

АГ

Артём Глазунов... in Machine learning
А вообще, iid конечно это боль. Ведь даже в аб тестах, когда вы берете людей из одной соц группы, пола и прочее, из одного города, района, там сразу корреляции метрик и не строго iid
источник