Size: a a a

Machine learning

2020 November 19

SS

Sergey Salnikov in Machine learning
усредняется скор на различных random_state, модель получается более устойчивая
источник

SS

Sergey Salnikov in Machine learning
не, там именно двойной цикл  - по сидам, и по фолдам для бленда
источник

i

igor in Machine learning
K-S
Смысл не в подборе сида, а в бленде алгоритмов, обученных на разных сидах. Суть та же, что и в случайном лесе — уменьшаем дисперсию прогнозов
Или увеличиваем
источник

K

K-S in Machine learning
igor
Или увеличиваем
С чего бы?
источник

K

K-S in Machine learning
Sergey Salnikov
сделал scatter по все тартетам - зависимость cv score от количества ненулевых элементов в тартеге, интересная зависимость
Так оно и неудивительно. На таргетах с малым количеством «единичек» и константа будет несильно ошибаться —> низкий логлосс
источник

SS

Sergey Salnikov in Machine learning
была идея - для каждого таргета подгонять на hpo свою модель. можно чуть-чуть улучшить скор на малочисленных тартетах, которых много, или значительно улучшить на многочисленных, которых мало. также поисследовал особенности логлосса, он сильно штрафует за уверенную ошибку и неуверенный точный прогноз, поэтому всякие калибровки и clip можно попробовать
источник

K

K-S in Machine learning
Хех, идеально подтюнивать модель под свой таргет — это оверфит. Я так логрегом локально получил 0.01329, а на лб оно хуже константы
источник

K

K-S in Machine learning
Клиппинг — да, но рискованная штука
источник

SS

Sergey Salnikov in Machine learning
да, рискованно, это скорее эвристика.
я планировал не под каждый таргет затачивать свою модель, а разбить на 2-3 группы (малочисленнные, многочисленные, и средне), и на каждой группе применять свою модель. вполне может быть, что на малочисленных и нули хорошо сработают
источник

i

igor in Machine learning
K-S
С чего бы?
Корреляция а что?
источник

K

K-S in Machine learning
igor
Корреляция а что?
Если корреляция между моделями есть, то уменьшение дисперсии будет конечно не пропорционально их количеству, но оно будет
источник

K

K-S in Machine learning
Если корреляция не строгая, конечно
источник

i

igor in Machine learning
Спорим она положительная? Дисперсия растет
источник

i

igor in Machine learning
Какое там уменьшение это база
источник

K

K-S in Machine learning
igor
Спорим она положительная? Дисперсия растет
О чем вы спорить хотите? О том, что усреднение алгоритмов увеличит дисперсию по вашему мнению?)))
источник

K

K-S in Machine learning
Распишите bias variance tradeoff)
источник

K

K-S in Machine learning
Если в композиции есть заведомо слабый алгоритм, то смещение может увеличиться, но не дисперсия
источник

K

K-S in Machine learning
В противном случае приведите пример, когда отдельно взятое решающее дерево будет работать лучше случайного леса. Тут корреляция между деревьями тоже ненулевая
источник

A

Alevtina in Machine learning
люди добрые, есть тут кто-то, кто разбирается в подборе параметров по графикам автокорр для модели временного ряда ARIMA (q,Q,p,P)? помогите понять, как подбирать. C5W1

домашку сделала, но с параметрами, кажись, намудрила

верно ли, что начальные приближения: Q=0, q=10, P=4, p=11?
для q и p мы берем ПОСЛЕДНИЕ значимые значения несезонного лага? но ведь тогда вроде цифры большие получаются
источник
2020 November 20

i

igor in Machine learning
K-S
О чем вы спорить хотите? О том, что усреднение алгоритмов увеличит дисперсию по вашему мнению?)))
Корелированных? Давайте вспомним формулу дисперсию суммы
источник