Телеграмм чат группы datasciencecourse страница 3460

Коллеги, привет!
Вопрос по #С2W3
Все категориальные признаки в X преобразуйте в строки, пропущенные значения требуется также преобразовать в какие-либо строки, которые не являются категориями (например, 'NA'),....
а затем
Для использования модели регрессии требуется преобразовать категориальные признаки в вещественные
*Для чего мы сначала преобразовывали все признаки в строки? Энкодер не работает с другими типами?*

источник

13:19пожаловаться #9

IN

Ivan Nazhestkin in Machine learning

Артём Глазунов

Отзывы парсили полные или фрагменты- превью?

там отзывы были из трёх частей каждый: плюсы/минусы/впечатления.
Я брал толтко "впечатления".
Тексты там были очень разные, начиная от длинных, и заканчивая одним словом "понравилось"

источник

13:21пожаловаться #10

АГ

Артём Глазунов... in Machine learning

Ivan Nazhestkin

там отзывы были из трёх частей каждый: плюсы/минусы/впечатления.
Я брал толтко "впечатления".
Тексты там были очень разные, начиная от длинных, и заканчивая одним словом "понравилось"

Алгоритм мог просто не настроиться на меньший класс...

источник

13:24пожаловаться #11

АГ

Артём Глазунов... in Machine learning

И советую html теги убрать, может помочь

источник

13:25пожаловаться #12

АГ

Артём Глазунов... in Machine learning

Хотя при настройке векторайзера и они, скорее всего, уйдут

источник

13:28пожаловаться #13

АГ

Артём Глазунов... in Machine learning

Макс документную частоту просто срезать

источник

13:28пожаловаться #14

RS

Ruslan Sabirov in Machine learning

https://vk.com/feed?w=wall-139800865_1386

VK

квестчн

наше общество если бы не надо было делать препроцессинг данных

источник

13:28пожаловаться #15

АГ

Артём Глазунов... in Machine learning

Это да..)

источник

13:29пожаловаться #16

IN

Ivan Nazhestkin in Machine learning

Чтобы не было проблемы с меньшим классом, надо пытаться oversampling сделать?)
А я правильно понял, что это так:

Найти k ближайших соседей каждого объекта меньшего класса, найти векторы от этого объекта до каждого соседа, и умножить кажлый вектор на число от 0 до 1

"To create a synthetic data point, take the vector between one of those k neighbors, and the current data point. Multiply this vector by a random number x which lies between 0, and 1."

html-теги и прочие вещи вроде   я удалил

источник

13:29пожаловаться #17

АГ

Артём Глазунов... in Machine learning

Хотя труд закаляет)

источник

13:29пожаловаться #18

АГ

Артём Глазунов... in Machine learning

Ivan Nazhestkin

Чтобы не было проблемы с меньшим классом, надо пытаться oversampling сделать?)
А я правильно понял, что это так:

Найти k ближайших соседей каждого объекта меньшего класса, найти векторы от этого объекта до каждого соседа, и умножить кажлый вектор на число от 0 до 1

"To create a synthetic data point, take the vector between one of those k neighbors, and the current data point. Multiply this vector by a random number x which lies between 0, and 1."

html-теги и прочие вещи вроде   я удалил

Там встроенные есть

источник

13:30пожаловаться #19

АГ

Артём Глазунов... in Machine learning

Там идея заполнять некоторыми похожими, но не дублями

источник

13:30пожаловаться #20