Телеграмм чат группы datasciencecourse страница 3676

Добрый день! Только начал проходить первый курс в специализации
Подскажите, почему не хочет распаковываться? До этого уже стояла анаконда, но полетел жесткий диск и приходится устанавливать вновь

источник

18:58пожаловаться #5

АГ

Артём Глазунов... in Machine learning

Helga Lilo

спасибо, попробую!

Если простую нужно сделать кодировку с меньшим числом признаков, чем в onehot, то это ordinal(но неизвестные категории нужно отдельно обрабатывать) или binary(появятся дополнительные признаки, но их существенно меньше). Но ordinal задаёт несуществующий порядок, а binary покорректней с этой точки зрения.

источник

19:04пожаловаться #6

АГ

Артём Глазунов... in Machine learning

Предварительно можно, как было сказано выше, объединить ещё редкие категории, но нужно понимать, что может получиться одна или несколько дополнительных огромных искусственных категорий

источник

19:07пожаловаться #7

Sergey Salnikov in Machine learning

Артём Глазунов

может, а может и нет, depends on. даже от используемого типа естиматора зависит, на одних это помогает, на других нет. для эксперимента - можно включить в это подможество значений те, у которых y = 1 (если это классификатор)

источник

19:20пожаловаться #8

Alex Tugai in Machine learning

Всем привет! Кому несложно, проверьте пожалуйста C1W4 https://www.coursera.org/learn/mathematics-and-python/peer/4vN1n/tsientral-naia-priediel-naia-tieoriema-svoimi-rukami/review/Gd8har7bEeqjSRKeFtLiXw

Coursera

Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera

Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science, computer science, business, and dozens of other topics.

источник

19:21пожаловаться #9

АГ

Артём Глазунов... in Machine learning

Sergey Salnikov

Абсолютно согласен, но добавить немного кросс-валидации лишним не будет. Но для бэйзлайна или предварительного отбора, в принципе, можно не заморачиваться и напрямую применить count к трейну, наверное...

источник

19:23пожаловаться #10

АГ

Артём Глазунов... in Machine learning

А для соревнования, можно добавить еще тестовую часть при кодировании, и так учесть распределение категорий на тесте

источник

19:24пожаловаться #11

Sergey Salnikov in Machine learning

ну самой собой, сравнение моделей - только через cv (мой любимый размер - 3 splits * 3 repeats), и feature engeniring - после baseline

источник

19:25пожаловаться #12

АГ

Артём Глазунов... in Machine learning

Sergey Salnikov

ну самой собой, сравнение моделей - только через cv (мой любимый размер - 3 splits * 3 repeats), и feature engeniring - после baseline

Нет, я имел в виду разбиение на фолды при кодировании, не кросс валидация, а просто использование других фолдов при построении частот

источник

19:26пожаловаться #13

АГ

Артём Глазунов... in Machine learning

Sergey Salnikov

ну самой собой, сравнение моделей - только через cv (мой любимый размер - 3 splits * 3 repeats), и feature engeniring - после baseline

Имеется в виду 3 разных варианта разбиения на 3 фолда и усреднить? Шафлить каждый раз по-новому? Так?

источник

19:28пожаловаться #14

АГ

Артём Глазунов... in Machine learning

И какие варианты инженеринга, если не секрет, предпочитаете? Взаимные произведения, их суммы и прочие комбинации?

источник

19:30пожаловаться #15

Sergey Salnikov in Machine learning

да, RepeatedStratifiedKFold.

источник

19:31пожаловаться #16

Sergey Salnikov in Machine learning

поведенческие шаблоны, но это просто набор данных специфичный, что-то типа click-prediction

источник

19:32пожаловаться #17

АГ

Артём Глазунов... in Machine learning

Sergey Salnikov

да, RepeatedStratifiedKFold.

То есть получаем как бы не 3 фолда, а 9, что точнее даёт mean и упрощает подбор автоматический, как я понимаю

источник

19:32пожаловаться #18

АГ

Артём Глазунов... in Machine learning

А медиану вместо mean не используете, чтобы от выбросов защититься?

источник

19:34пожаловаться #19

Sergey Salnikov in Machine learning

это примерно тоже, что повторять 3 раза kfold/3 с разными random_state, это не значит 9 фолдов. 3/3 - получилось из экспериментов с различными n_splits/n_repeats, искал наименьшую дисперсию, так что это зависит от данных и используемого алгоритма.

источник

19:35пожаловаться #20