Size: a a a

Machine learning

2020 June 01

A

Alexey in Machine learning
K-S
Сейчас уже даже гиперпараметры у бустингов практически не оптимизируют многие топы, хотя тоже потенциальный источник каких-то там знаков после запятой
То есть - у них отрыв достаточный, чтобы не заморачиваться на эти детали?
источник

K

K-S in Machine learning
Alexey
То есть - у них отрыв достаточный, чтобы не заморачиваться на эти детали?
Просто влияние гиперпараметров на ваше положение лидерборде очень сильно преувеличено. И сейчас люди это постепенно стали понимать. Практически всегда при наличии времени лучше ещё раз покопаться в данных и возможно сгенерировать новую полезную фичу, профита от которой будет в разы больше.

Я уже давно настраиваю гиперпараметры у лгбм вручную и выходит ненамного хуже, чем делать это через какой-либо из оптимизаторов. А по времени в разы быстрее
источник

A

Alexey in Machine learning
В общем победа за счет фича инжениринга получается? Ну или поисков ликов или даже скрапинга тестового датасета)))
источник

K

K-S in Machine learning
Alexey
В общем победа за счет фича инжениринга получается? Ну или поисков ликов или даже скрапинга тестового датасета)))
От используемого алгоритма зависит. Деревянные алгоритмы да, очень жадные на ручную генерацию фич
источник

SS

Sergey Salnikov in Machine learning
а какой смысл в соревнованиях для real world? эти же многоэтажные модели не подходят для прода, тот же sklearn - далеко не prod-ready
источник

K

K-S in Machine learning
Зачастую новичку на каггле может показаться во время просмотра скоров участников, что мол различия всего в тысячную, это ж якобы совсем мало. Сейчас подкручу гиперпараметры и влечу в топ, но это глубокое заблуждение. Это очень большая разница и для улучшения скора, нужны принципиально новые идеи и подходы к задачке
источник

K

K-S in Machine learning
Sergey Salnikov
а какой смысл в соревнованиях для real world? эти же многоэтажные модели не подходят для прода, тот же sklearn - далеко не prod-ready
Это заблуждение, что на каггле выигрывают только благодаря многоуровневым стекам.

Во-первых, вы научитесь грамотно валидироваться. Так как разница в тысячную на каггле может быть критической, вы будете стараться и учиться выстроить как можно более точную и надежную схему валидации, а это полезно везде и всегда

Во-вторых, идеи и подходы. Стандартный набор эдаких advanced каггл трюков уже известен всем. Поэтому чтоб брать золото, постоянно надо что-то изобретать по части подхода. Тот же XGBoost родился по сути из каггла

В третьих, это конкуренция. Там участвуют невероятно крутые дс’а со всего мира. В конкуренции вы быстрее прокачиваетесь сами и она не даёт вам погрязнуть в рутине и аттрофироваться мл скиллам, что рано или поздно произойдёт при работе в обычном энтерпрайзе
источник

A

Alexey in Machine learning
K-S
Зачастую новичку на каггле может показаться во время просмотра скоров участников, что мол различия всего в тысячную, это ж якобы совсем мало. Сейчас подкручу гиперпараметры и влечу в топ, но это глубокое заблуждение. Это очень большая разница и для улучшения скора, нужны принципиально новые идеи и подходы к задачке
Именно так. Я там решал (не соревнование , датасет по прогнозированнию оттока сотрудников). Очень старался через гиперпараметры улучшить на 0,001 к конкурентам. и гордился ))) Вообще, прикольный опыт, когда после 2х частей курса идешь на Кэгл и стараешься что-то сделать с нуля... Там полно подходящих задачек..
источник

SS

Sergey Salnikov in Machine learning
я говорю с точки зрения компаний, создающих задания на kaggle. Они делают это чтобы улучшить свои модели, но применяемые у победителей подходы не всегда можно технически довести до прода.
источник

K

K-S in Machine learning
Sergey Salnikov
я говорю с точки зрения компаний, создающих задания на kaggle. Они делают это чтобы улучшить свои модели, но применяемые у победителей подходы не всегда можно технически довести до прода.
Нет, они не для этого их проводят
источник

K

K-S in Machine learning
Цели компаний:
1) пиар самой компании
2) изучить методы валидации
3) бенчмарк своих датасетов. А-ля «а что вообще в теории можно выжать из наших данных»
4) поиск потенциальных новых сотрудников
5) если research соревнование, то изучение новых подходов к решению данной задачи. Там не всегда в качестве организаторов выступают бизнес компании, там проводят соревы и научные сообщества, интерес которых зачастую как раз в наибольшем возможном качестве и новых методах решения
источник

AG

Artyom Gruzdev in Machine learning
Главная ценность Kaggle – мы можем быстро проверить свои эвристики, подходы к генерации и отбору признаков, настройки гиперпараметров, стратегии валидации для той или иной ситуации. Вот это и можно взять в прод. Условно, придумываешь фичи с помощью изолирующего леса,  отправляешь сабмиты для 10 кейсов, видишь, что ничего не дало, что с ними, что без них, дальше мозгуешь, снова отправляешь, видишь, что в 7 из 10 кейсов сработало, можно брать в работу. Из последнего. Сравнивал подход Рафтери и обычный по AUC для отбора признаков в логрег без регуляризации. По сабмитам первый показал лучшие результаты. Занимает день-два. А без Kaggle на проверку ушли б недели.
источник

SS

Sergey Salnikov in Machine learning
может, потому что целевая метрика на kaggle была не auc?
источник

AG

Artyom Gruzdev in Machine learning
AUC, но отбор фичей вообще не нужно делать по AUC
источник

A

Aroh in Machine learning
#C2W4 в задаче написано "Воспользуйтесь формулой из лекций, задающей ответы на обучающей выборке, на которые нужно обучать новый алгоритм (фактически это лишь чуть более подробно расписанный градиент от ошибки), и получите частный ее случай, если функция потерь L - квадрат отклонения ответа композиции a(x) от правильного ответа y на данном x."
источник

A

Aroh in Machine learning
Вопрос - это они так хитро среднеквадратичную ошибку описали?
источник

A

Aroh in Machine learning
Т.е. имеется в виду (a(x) - y) ** 2?
источник

V

Valery in Machine learning
Не могу зайти, но судя по описанию - не производная ли от MSE имеется в виду?
источник

A

Aroh in Machine learning
Ну я тоже так понял, просто... ну там же в лекциях эта производная уже разобрана -) Зачем её просят посчитать? )
источник

V

Valery in Machine learning
Ну вот они и говорят, воспользуйтесь формулой из лекций))
источник