Size: a a a

Machine learning

2020 June 01

PS

Pasha Smirnov in Machine learning
Переслано от yithian
Это декоратор, все переменные внутри него - локальные.
источник

A

Artur in Machine learning
А в каком виде нужно загружать решение на курсеру?
источник

A

Alexey in Machine learning
Начал третий курс: первые 1,5 недели сделал за 1,5 дня, темы очень сложные, а задания по программированию очень простые: фит предикт, сортировка и готово.  Стоит ли вообще разбираться плотно с em кластеризацией или матричными разложениями? Это дальше на курсе используется в части математики?
источник

K

K-S in Machine learning
GMM для искусственных данных — самое оно)
источник

A

Alexey in Machine learning
Можете плз раскрыть подробнее? Чувствую сарказм )
источник

A

Alexey in Machine learning
Про иск данные
источник

AK

Andrey 🦉 Kovalchuk... in Machine learning
Alexey
Начал третий курс: первые 1,5 недели сделал за 1,5 дня, темы очень сложные, а задания по программированию очень простые: фит предикт, сортировка и готово.  Стоит ли вообще разбираться плотно с em кластеризацией или матричными разложениями? Это дальше на курсе используется в части математики?
Матричные разложения, я так понимаю, лежат в основе многих интересных методов.
источник

K

K-S in Machine learning
Ну просто за последний год было два соревнования на каггле, где данные были искусственно сгенерированы. И там, и там GMM очень сильно докидывали
источник

AK

Andrey 🦉 Kovalchuk... in Machine learning
Alexey
Начал третий курс: первые 1,5 недели сделал за 1,5 дня, темы очень сложные, а задания по программированию очень простые: фит предикт, сортировка и готово.  Стоит ли вообще разбираться плотно с em кластеризацией или матричными разложениями? Это дальше на курсе используется в части математики?
Ну и задания второй недели показались мне несколько (достаточно) более сложными, чем задания первой недели.
источник

AK

Andrey 🦉 Kovalchuk... in Machine learning
Но это субъективно.
источник

A

Alexey in Machine learning
K-S
Ну просто за последний год было два соревнования на каггле, где данные были искусственно сгенерированы. И там, и там GMM очень сильно докидывали
Если подойти статистически, то это значит «почти не встречается в жизни?» просто когда нет сложных заданий ( лучше по программированию, а не тестов с выбором ответа) сложно заставить себя зарываться в математику
источник

K

K-S in Machine learning
Alexey
Если подойти статистически, то это значит «почти не встречается в жизни?» просто когда нет сложных заданий ( лучше по программированию, а не тестов с выбором ответа) сложно заставить себя зарываться в математику
Ну чтоб GMM завёлся на ваших данных и что-то докинул, то надо чтоб компоненты смеси были распределены нормально. Чем больше они похожи на гауссовские, тем лучше для GMM’a. В реальных данных такое происходит далеко не всегда. Конечно, никто нам не запрещает решать задачу разделения смеси, если компоненты имеют другой закон распределения, но тогда скорее всего придётся писать под это дело свой велосипед, так как в sklearn готовой реализации точно нет. Хотя мб уже кто-то реализовал в своей библиотечке поддержку других распределений, можно прочекать гитхаб
источник

y

yithian in Machine learning
Alexey
Если подойти статистически, то это значит «почти не встречается в жизни?» просто когда нет сложных заданий ( лучше по программированию, а не тестов с выбором ответа) сложно заставить себя зарываться в математику
Вся специализация не про сложные задания по программированию.
источник

Ю

Юрий in Machine learning
K-S
Ну чтоб GMM завёлся на ваших данных и что-то докинул, то надо чтоб компоненты смеси были распределены нормально. Чем больше они похожи на гауссовские, тем лучше для GMM’a. В реальных данных такое происходит далеко не всегда. Конечно, никто нам не запрещает решать задачу разделения смеси, если компоненты имеют другой закон распределения, но тогда скорее всего придётся писать под это дело свой велосипед, так как в sklearn готовой реализации точно нет. Хотя мб уже кто-то реализовал в своей библиотечке поддержку других распределений, можно прочекать гитхаб
Рискну вбросить свои 5 копеек. Если компонентов смеси немного (произвольные распределения), то можно в лоб составить задачу максимизации правдоподобия и решить её каким-нибудь методом из scipy.optimize, всякие дифференциальные эволюции и иммитации отжига довольно неплохо делают свое дело, как показывает моя практика. Правда процесс может занять больше ожидаемого, но все же это решение "в два клика". А если получиться свести задачу в funnel-like, то там еще более мощные методы есть для этого.
источник

Ю

Юрий in Machine learning
И можно рассмотреть варианты задания "начальных условий" для градиентных методов и начальных популяций для дифф. эв. по результатам работы GMM на данных
источник

K

K-S in Machine learning
В целом я не видел примеров в обычной энтерпрайз дс жизни, когда использовался бы gmm для кластеризации. Слишком муторно и как правило, что называется, овчинка выделки не стоит.
источник

K

K-S in Machine learning
Юрий
И можно рассмотреть варианты задания "начальных условий" для градиентных методов и начальных популяций для дифф. эв. по результатам работы GMM на данных
В Энтерпрайзе таким точно никто заниматься не будет 😂 это оверкилл даже для каггла)
источник

Ю

Юрий in Machine learning
K-S
В Энтерпрайзе таким точно никто заниматься не будет 😂 это оверкилл даже для каггла)
Чего только люди не делают ради дополнительного прироста в 0.00001 в LB)
источник

K

K-S in Machine learning
Ну как правило чуть ли не всегда есть вещи, которые дадут бОльший буст, а затрат меньше
источник

K

K-S in Machine learning
Сейчас уже даже гиперпараметры у бустингов практически не оптимизируют многие топы, хотя тоже потенциальный источник каких-то там знаков после запятой
источник