Телеграмм чат группы datasciencecourse страница 4594

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Machine learning

7639 membersпожаловаться на группу

2021 January 05

K

K-S in Machine learning

Ibp

а в чем кстати разница?

в 90% соревнований вам даётся трейн данные, лейблы для трейна и тестовые данные без лейбла. Вы обучаете модель, а потом делаете предсказания для тестовой выборки и засылаете ваше предсказания на сервер организатора (каггла, например). Там в свою очередь тестовый набор данных подразделяется на два поднабора: паблик и приват (соотношения этого разбиения отличаются от соревнования к соревнования. Зачастую бывают 30:70 или даже 20:80). Так вот, вы засылаете свои предсказания, на сервере рассчитывается показатель качества и для паблика и для привата, но вам показывается лишь качество вашей модели на паблике. То есть по сути вы видите качество ваших предсказаний лишь по 20-30% теста. Итоговые же места, деньги, медали распределяются исходя из качества, показанного на скрытой приватной части.

источник

01:16пожаловаться #1

I

Ibp in Machine learning

ну а после засылки предсказания, вы же видите 2 скора, как паблик так и приват же, нпример в kaggle api?

источник

01:19пожаловаться #2

K

K-S in Machine learning

Ibp

ну а после засылки предсказания, вы же видите 2 скора, как паблик так и приват же, нпример в kaggle api?

нет, только паблик. Приват вы видите лишь по окончании соревнования

источник

01:20пожаловаться #3

I

Ibp in Machine learning

ну в принципе это тот же метод для борьбы с подбором, только вид сбоку

источник

01:21пожаловаться #4

K

K-S in Machine learning

то есть приват по сути и играет тут роль эдакого контроля, да. Но просто штука в том, что зачастую разница в качестве между соседними участниками на этих отложеннных данных невероятно маленькая, из-за чего сложно говорить, что участник с более высоким скором действительно построил модель с лучшей предсказательной способностью. Вполне возможно что ему просто чуть больше повезло на конкретно этом наборе отложенных данных.

источник

01:23пожаловаться #5

DT

Denis Tolstoukhov in Machine learning

Коллеги, всем доброй ночи !

закончил 5 курс и вспомнил, что к 1 курсу не приложил скрин по установке питона еще полгода назад.
у кого есть доступ к C1, прокликайте плез
https://www.coursera.org/learn/mathematics-and-python/peer/2yTvX/ustanovka-python/review/Lr-eI07hEeu-rxL4NzDiiw

Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera

Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science, computer science, business, and dozens of other topics.

источник

01:52пожаловаться #6

i

igor in Machine learning

Sergey Salnikov

ну да, но всё равно, получается мы обучаем на train-test части несколько моделей, и сравниваем их на контроле - какая модель лучше. да, там скор будет отличаться от cv, но насколько оправдано сравнение моделей на одном фолде?

Это не так работает

источник

08:18пожаловаться #7

DP

Dmitry Penzar in Machine learning

Артём Глазунов

Что думаете по поводу следующего подхода: разделить выборку на трейн и тест, затем получить n скоров, обучая n раз модель на бутстрапированных сэмплах из трейн и проверяя на n бутстрапированных сэмплах из тест. Тут есть, наверное, небольшое нарушение iid в связи с пересечение данных, но в связи со случайностью бутстрэпа, оно, вероятно, небольшое, подвыборки всегда разные. Здесь может и т тест зайти ведь на скоры, хотя кажется, что все равно как-то не вариативно... В таком случае, можно повысить вариативность, каждый раз сэмплируя из случайной подвыборки без возвращения размера, скажем, 0.5 от исходной выборки...

Ну у вас и для kfold тоже будет "небольшое". Те же проблемы

источник

10:43пожаловаться #8

DP

Dmitry Penzar in Machine learning

так вроде те же грабли --нет? Выборка-то исходная одна и та же. Поэтому то что вы как-то ее нарезаете не делает наблюдения i.i.d.

Да причем здесь iid наблюдений.. не про него разговор же

источник

10:43пожаловаться #9

DP

Dmitry Penzar in Machine learning

Ibp

ну как бы лучше сделать так: если заниматься коссвалидацией, например, то разделить все на тренировочный набор и отложенный. отложенный вообще не трогать во время обучения. после оценки алгоритмов с кроссвалидацией на тренировочном сделать попарную оценку о статистической значимости их решений с помощью теста 5x2cv paired t test и потом те которые будут в группе статистически значимых с самыми высокими скорами проверить на отложенной выборке и выбрать тот который покажет лучший результат. так наверное http://rasbt.github.io/mlxtend/user_guide/evaluate/paired_ttest_5x2cv/

rasbt.github.io

5x2cv paired *t* test - mlxtend

A library consisting of useful tools and extensions for the day-to-day data science tasks.

Ну прочтите спор, уже обсуждали

источник

10:44пожаловаться #10

DP

Dmitry Penzar in Machine learning

Ibp

на соревнованиях, вообще можно перебором без всяких моделей получить высокий результат, поэтому там и есть часто ограничения на количество отправляемых решений в день

? Приват лидербоард. На паблик переобучайтесь сколько душе угодно

источник

10:45пожаловаться #11

АГ

Артём Глазунов... in Machine learning

Ну у вас и для kfold тоже будет "небольшое". Те же проблемы

Думаете? Кажется, что явно больше для к фолд засчёт того, что модель обучена на фолде, а потом ещё и тестируется на другом, в результате фолды и метрики связаны... Тут же этой связи нет, но есть предполагаемая корреляции сэмплов, которая тем меньше, чем меньше размер бутстрап сэмпла... Но, в вопросе независимости интуиция плохой друг.. Тут надо или источники найти, где измерения корреляции для подобных метрик, либо самому пробовать...

источник

10:48пожаловаться #12

DP

Dmitry Penzar in Machine learning

Sergey Salnikov

т.е. та модель, что лучше всего показала себя на контроле, считается как лучшая? но ещё раз - чем этот контроль лучше другого фолда в cv сплитах? почему он особенный? на нём же тоже может быть статистическая погрешность

Он особенный, ибо в идеале вы его трогаете 1 раз, когда модель уже лучшую (одну) проверяете. Ну или когда моделей осталось мало.

А так - если на test проверяют миллионы моделей, то проблема, разумеется будет. И она есть.

источник

10:49пожаловаться #13

DP

Dmitry Penzar in Machine learning

Артём Глазунов

Думаете? Кажется, что явно больше для к фолд засчёт того, что модель обучена на фолде, а потом ещё и тестируется на другом, в результате фолды и метрики связаны... Тут же этой связи нет, но есть предполагаемая корреляции сэмплов, которая тем меньше, чем меньше размер бутстрап сэмпла... Но, в вопросе независимости интуиция плохой друг.. Тут надо или источники найти, где измерения корреляции для подобных метрик, либо самому пробовать...

А, вы бутстрэп делаете на трэйн только. Простите, спросонья криво прочел. Ну вы фактически предлагаете делать бутстрэп оценку ту же

источник

10:50пожаловаться #14

АГ

Артём Глазунов... in Machine learning

А, вы бутстрэп делаете на трэйн только. Простите, спросонья криво прочел. Ну вы фактически предлагаете делать бутстрэп оценку ту же

Нет, ещё на тесте, плюс сабсэмплы перед бутстрапом

источник

10:51пожаловаться #15

АГ

Артём Глазунов... in Machine learning

Получаем квази разные выборки

источник

10:51пожаловаться #16

DP

Dmitry Penzar in Machine learning

Ну полученные модели энивей не будут независимыми

источник

10:52пожаловаться #17

АГ

Артём Глазунов... in Machine learning

Согласен, где-то будут пересечения, но должны быть меньше... Но вот вопрос, посмотреть бы примеры экспериментов с бутстрап ом, где проводят измерения степени зависимости от размера

источник

10:53пожаловаться #18

DP

Dmitry Penzar in Machine learning

Представьте, что учите вы SVM. Она использует очень малую долю выборки для построения решения. У вас тогда почти любая SVM будет учить одни и те же веса.

источник

10:54пожаловаться #19

АГ

Артём Глазунов... in Machine learning

А вообще, iid конечно это боль. Ведь даже в аб тестах, когда вы берете людей из одной соц группы, пола и прочее, из одного города, района, там сразу корреляции метрик и не строго iid

источник

10:54пожаловаться #20