Size: a a a

Machine learning

2020 July 04

АГ

Артём Глазунов... in Machine learning
Хорошо бы взять cv на 30 фолдов и проверять стат значимость отличий средних метрик критериями, но это затратно...
источник

АГ

Артём Глазунов... in Machine learning
При этом надо понимать, что значит заметно лучше... Там доверительный интервал ведь качества, случайность...
источник

АГ

Артём Глазунов... in Machine learning
Параметры при доводке можно подбирать по грид серч, но желательно ознакомиться со всеми результатами, как я уже писал. Среднее легко настраивается на выбросы, как было подмечено...
источник

AO

Alex Ololo in Machine learning
можно не одно на   5 фолдах, а 10 разбений по 5 фолдов - о с разным рандом стейт)
и на каждом фолде сравнивать два алгоритма с разными параметрами
источник

АГ

Артём Глазунов... in Machine learning
Alex Ololo
можно не одно на   5 фолдах, а 10 разбений по 5 фолдов - о с разным рандом стейт)
и на каждом фолде сравнивать два алгоритма с разными параметрами
Можно, но это затратно, к сожалению
источник

SS

Sergey Salnikov in Machine learning
можно и с одним рандом-стейтом, Repeated(Stratified)KFold же есть
источник

AO

Alex Ololo in Machine learning
Артём Глазунов
Можно, но это затратно, к сожалению
это так) но грид серч так же делает. полным перебором
источник

AO

Alex Ololo in Machine learning
не?
источник

AG

Artyom Gruzdev in Machine learning
Alina Golkina
Может я не так объяснила: Вот я получила best параметры гридсерчем, потом на этих параметрах обучила модель, на тесте получила определенное качество...потом на этом же train/test при других параметрах полусила качество намного лучше. .или так нельзя проверить...
делайте вложенную проверку
источник

AO

Alex Ololo in Machine learning
Sergey Salnikov
можно и с одним рандом-стейтом, Repeated(Stratified)KFold же есть
я не знал) я руками через for )
источник

SS

Sergey Salnikov in Machine learning
если нужно сравнивать алгоритмы, то надо хорошая точность, низкая дисперсия, поэтмоу n_splits и n_repeats не жалеем
источник

SS

Sergey Salnikov in Machine learning
рано или поздно всё приходится переписывать руками, т.к. попадаются нестандартные естиматоры без нормального sklearn враппера
источник

SS

Sergey Salnikov in Machine learning
на некоторых алроритмах даже порядок полей менят качество, поэтому feature selection - тоже в арсенале
источник

AO

Alex Ololo in Machine learning
Sergey Salnikov
на некоторых алроритмах даже порядок полей менят качество, поэтому feature selection - тоже в арсенале
поясните, плиз. не понял это
источник

SS

Sergey Salnikov in Machine learning
единственная сложность - для "ручного" cv надо писать хороший распараллеливающий код
источник

SS

Sergey Salnikov in Machine learning
например ffmlib и vopal wabbit работают через файлы, нужно сначала конвертировать dataframe во внеший файл, потому вызывать внешнюю программу с этим файлом
источник

SS

Sergey Salnikov in Machine learning
да, есть sklearn-обертка для vw, но она жутко тормозит
источник

АГ

Артём Глазунов... in Machine learning
В конце концов, при автоматическом подборе по cv все сводится к большему числу оценок и более точно посчитанным статистикам... Но не всегда это вычислительно возможно, к сожалению... Поэтому считаю простым грид серч и смотрю на все значения на всех фолдах, после чего делаю выводы...
источник

АГ

Артём Глазунов... in Machine learning
Можно, конечно, байесовские оптимизации использовать, там меньше оценок должно быть, но их не пробовал пока
источник

AG

Alina Golkina in Machine learning
Спасибо ребят! Мне еще ооочень много изучать и изучать)))
источник