Size: a a a

Machine learning

2021 January 03

i

igor in Machine learning
K-S
Оцените две модели, которые вы хотите сравнить между собой, на кросс-валидации. И потом сравните т-тестом для зависимых наблюдений (так как кол-во фолдов скорее всего будет небольшим (5-7), то ещё в начале проверьте полученные по cv скоры на нормальность. Например, тестом Шапиро-Уилка)
А если нет нормальности то что?
источник

K

K-S in Machine learning
igor
А если нет нормальности то что?
Если  всего 4200 наблюдений как у топик стартера и в качестве модели используется логрег, то тут довольно быстро и легко можно провести кросс-валидацию не на 5-7 фолдов, а на значительно бОльшее количество.
источник

i

igor in Machine learning
Да но модели зависимы будут и не важно сколько
источник

K

K-S in Machine learning
Я к тому, что требование нормальности для т-теста с большим размером выборки уже будет неактуальным
источник

i

igor in Machine learning
Для ти теста есть ещё требования например iid?
источник

i

igor in Machine learning
А тут оно не выполняется
источник

i

igor in Machine learning
Особенно для многих фолдов
источник

DP

Dmitry Penzar in Machine learning
можно бутстрэпные конфиденс интервалы посмотреть
источник

DP

Dmitry Penzar in Machine learning
А любой тест предполагающий независимость будет нехорош, да
источник

K

K-S in Machine learning
igor
Для ти теста есть ещё требования например iid?
Это можно во многом решить посредством RepeatedKFold. Бьем условно нашу выборку n раз на 5 фолдов.
источник

K

K-S in Machine learning
Каждое новое разбиение из n — случайно и независимо
источник

DP

Dmitry Penzar in Machine learning
Это не совсем так, выборка то разбиваемая та же.
источник

K

K-S in Machine learning
Dmitry Penzar
Это не совсем так, выборка то разбиваемая та же.
Так а t тест для связанных выборок

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html

В чем проблема?
источник

DP

Dmitry Penzar in Machine learning
У вас предположение ттеста, что наблюдения независимы
источник

DP

Dmitry Penzar in Machine learning
В связном ттесте - что пары xi,yi независимы
источник

DP

Dmitry Penzar in Machine learning
Или разницы, как удобнее думать
источник

DM

Dmitrii Mikhailov in Machine learning
источник

K

K-S in Machine learning
Dmitry Penzar
Это не совсем так, выборка то разбиваемая та же.
Да, формально так.
источник

K

K-S in Machine learning
В смысле вы правы
источник

DP

Dmitry Penzar in Machine learning
Для рокаук кстати есть быстрый способ подсчета бутстрэп ci, там не надо модель перестраивать.
источник