Size: a a a

Machine learning

2021 January 04

АГ

Артём Глазунов... in Machine learning
Dmitry Penzar
не, я к тому, что по логике бутстрэп как раз проблемы не вызовет. У нас частое предположение, что объекты в обучающей выборке независимо брались
Но если наша выборка это метрики по фолдам, тогда они между собой коррелируют
источник

АГ

Артём Глазунов... in Machine learning
А значит iid нет, и бутстреп по вопросом?
источник

DP

Dmitry Penzar in Machine learning
так, я предлагал бутстрэп использовать на этапе до подсчета метрики. Как здесь, например
источник

АГ

Артём Глазунов... in Machine learning
Dmitry Penzar
так, я предлагал бутстрэп использовать на этапе до подсчета метрики. Как здесь, например
Хм, хорошо спасибо, поглубже вникну, но тут вроде как рассматривается обученная модель и тестовые данные, предсказания и истину на которых мы сэмплируем для получения интервалов для метрики. Тут iid, действительно, кажется. Единственная проблема, не учитывается разброс при обучении модели на разных данных, ведь он будет существенен. Но тем не менее, кажется, что данный метод корректен в своей постановке, хотя и может быть не совсем полным для сравнения моделей.
источник

DP

Dmitry Penzar in Machine learning
Артём Глазунов
Хм, хорошо спасибо, поглубже вникну, но тут вроде как рассматривается обученная модель и тестовые данные, предсказания и истину на которых мы сэмплируем для получения интервалов для метрики. Тут iid, действительно, кажется. Единственная проблема, не учитывается разброс при обучении модели на разных данных, ведь он будет существенен. Но тем не менее, кажется, что данный метод корректен в своей постановке, хотя и может быть не совсем полным для сравнения моделей.
ну можно при желании учить модель на разных данных. Просто бутстрэп ообычно предполагает много реплик - поотому учить заново долго. Но вай нот.

Да, что неполный - правда.  что можно сделать не стреляя в себе ногу новым способом - это построить бутстрэп распределения для разных моделей и глазами посмотреть). А дальше идет тоже простор для допущений.
источник

SS

Sergey Salnikov in Machine learning
Диттерих рекомендует тест Немара если данных мало (или их долго считать), и модифицированный t-test на 5x2 cv, если скоры посчитать легко.
источник

SS

Sergey Salnikov in Machine learning
и по обычному k-fold cv - он позволяет его использовать, когда важно уменьшить ошибки FN, т.е. вполне можно позволить взять новую модель, которую тест определил как лучшую, но она такой не является.
источник

DP

Dmitry Penzar in Machine learning
для accuracy по сути
источник

DP

Dmitry Penzar in Machine learning
он это предлагает
источник

SS

Sergey Salnikov in Machine learning
в мл строгих асумпшинов почти нигде нет, методы используют по их эмпирическим подтверждениям. тот же наивный баес справился со своей задачей спам-фильтра.
источник

DP

Dmitry Penzar in Machine learning
ох, вы цитируете статьи, где прямо пишут6 что написано в чате, чттобы спорить с тем, что пишут в чате
источник

DP

Dmitry Penzar in Machine learning
мне кажется это странным
источник

DP

Dmitry Penzar in Machine learning
Что везде есть трейдофы я не спорю. Начать с того, что верность 5-2 теста тоже не показана строго. Они просто на каких-то искуственных выборках проверили.
источник

SS

Sergey Salnikov in Machine learning
теория для iid есть, небольшие нарушения iid на практике теорию не опровергают, а что ещё надо для счастливого мл? я к этому
источник

АГ

Артём Глазунов... in Machine learning
Вам ведь дано стандартное отклонение для оценки МНК, разве это не стандартная ошибка? Зачем ещё делить, все уже поделено. МНК даёт ведь условные мат ожидания
источник

АГ

Артём Глазунов... in Machine learning
Это к вопросу по Демешеву
источник

M

Michael in Machine learning
Спасибо, но въехать не могу ( то есть стандарт отклонение в данном случае = стандартной ошибке?
источник

АГ

Артём Глазунов... in Machine learning
Michael
Спасибо, но въехать не могу ( то есть стандарт отклонение в данном случае = стандартной ошибке?
Да
источник

АГ

Артём Глазунов... in Machine learning
Michael
Спасибо, но въехать не могу ( то есть стандарт отклонение в данном случае = стандартной ошибке?
Подумайте над этим с точки зрения того, что вы ищете доверительный интервал для мат ожидания. Вам дано выборочное среднее, его стандартное отклонение и вид распределения.
источник

АГ

Артём Глазунов... in Machine learning
Это чуть грубо, но для понимания полезно
источник