Size: a a a

Machine learning

2020 July 05

HL

Helga Lilo in Machine learning
Подскажите, кто делал проект Отток клиентов. Строю baseline модели,первая линейная. Как Вы кодировали категориальные признаки? Label encoding нельзя, OneHot из 38 признаков делает 60 тысяч
источник

BM

Babylen Magnus in Machine learning
Здравствуйте, любители больших данных, у меня проблема, а именно не могу вместить нужное количество картинок в оперативную память, поэтому создал такую функцию для отбора по n картинок, но хоть у меня и ssd чтение с диска происходит медленно, есть ли способы ускорения формирования батча?
источник

BM

Babylen Magnus in Machine learning
31 секунда для 100 картинок это многовато
источник

АГ

Артём Глазунов... in Machine learning
Helga Lilo
Подскажите, кто делал проект Отток клиентов. Строю baseline модели,первая линейная. Как Вы кодировали категориальные признаки? Label encoding нельзя, OneHot из 38 признаков делает 60 тысяч
Обратите внимание на binary encoding, хотя у меня и one hot отработал с бустингом неплохо. Можете попробовать mean encoding, но его непросто применять, можно переобучиться легко.
источник

АГ

Артём Глазунов... in Machine learning
Не хотите кодировать, можете catboost использовать
источник

HL

Helga Lilo in Machine learning
Для baseline нужно 3 решения, в случае с лесом и бустингом ок и label enc., а вот на линейной я задумалась,как закодировать,чтобы так не раздувать базу и имело смысл кодирование
источник

АГ

Артём Глазунов... in Machine learning
Helga Lilo
Для baseline нужно 3 решения, в случае с лесом и бустингом ок и label enc., а вот на линейной я задумалась,как закодировать,чтобы так не раздувать базу и имело смысл кодирование
Ordinal, binary, mean( target, leaveoneout), count
источник

АГ

Артём Глазунов... in Machine learning
Основные, которые не раздувают
источник

АГ

Артём Глазунов... in Machine learning
Но низкую кардинальность лучше все равно one hot
источник

АГ

Артём Глазунов... in Machine learning
Но мне кажется, что признаки с таким большим количеством категорий(больше 1000) лучше удалить
источник

АГ

Артём Глазунов... in Machine learning
Не так много данных, чтобы они были информативны
источник

HL

Helga Lilo in Machine learning
Артём Глазунов
Но низкую кардинальность лучше все равно one hot
Низкая кардинальность - это малое количество категорий в столбце?
источник

АГ

Артём Глазунов... in Machine learning
Да
источник

HL

Helga Lilo in Machine learning
Артём Глазунов
Но мне кажется, что признаки с таким большим количеством категорий(больше 1000) лучше удалить
Удаление столбцов с более 1000 категорий- это есть такая практика вообще? Не только касаемо этой задачи
источник

АГ

Артём Глазунов... in Machine learning
Надо смотреть на то, насколько удаление признака повлияет на качество
источник

АГ

Артём Глазунов... in Machine learning
Поэкспериментировать
источник

HL

Helga Lilo in Machine learning
Уже с baseline решениями или после?
источник

АГ

Артём Глазунов... in Machine learning
Я сразу попробовал
источник

АГ

Артём Глазунов... in Machine learning
Там много мусора в признаках
источник

АГ

Артём Глазунов... in Machine learning
Просто шумовых
источник