Size: a a a

Machine learning

2020 June 04

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
У меня 75-80% при LinearSVC и CountVectorizer.
Как ни странно, Tfidf даёт на 2-3 процента меньшую (!) accuracy
Отзывы парсили полные или фрагменты- превью?
источник

АГ

Артём Глазунов... in Machine learning
Возможно, качество выборки здесь влияет
источник

АГ

Артём Глазунов... in Machine learning
Я с отзовика парсил полные просто...
источник

АГ

Артём Глазунов... in Machine learning
Или на разметку выборки посмотрите
источник

АГ

Артём Глазунов... in Machine learning
Может быть сдвиг где- то в отклике...
источник

K

K-S in Machine learning
Артём Глазунов
Только вероятностей не даёт, что не очень
Ну чистый свм не даёт, но в склерн реализации же вроде сигмоиду поверх вкручивают и вероятности уже можно получить
источник

АГ

Артём Глазунов... in Machine learning
Можно калибровать, согласен
источник

АГ

Артём Глазунов... in Machine learning
Но я лог рег использовал в конце
источник

TC

Tommy Cash in Machine learning
Коллеги, привет!
Вопрос по #С2W3
Все категориальные признаки в X преобразуйте в строки, пропущенные значения требуется также преобразовать в какие-либо строки, которые не являются категориями (например, 'NA'),....
а затем
Для использования модели регрессии требуется преобразовать категориальные признаки в вещественные
*Для чего мы сначала преобразовывали все признаки в строки? Энкодер не работает с другими типами?*
источник

IN

Ivan Nazhestkin in Machine learning
Артём Глазунов
Отзывы парсили полные или фрагменты- превью?
там отзывы были из трёх частей каждый: плюсы/минусы/впечатления.
Я брал толтко "впечатления".
Тексты там были очень разные, начиная от длинных, и заканчивая одним словом "понравилось"
источник

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
там отзывы были из трёх частей каждый: плюсы/минусы/впечатления.
Я брал толтко "впечатления".
Тексты там были очень разные, начиная от длинных, и заканчивая одним словом "понравилось"
Алгоритм мог просто не настроиться на меньший класс...
источник

АГ

Артём Глазунов... in Machine learning
И советую html теги убрать, может помочь
источник

АГ

Артём Глазунов... in Machine learning
Хотя при настройке векторайзера и они, скорее всего, уйдут
источник

АГ

Артём Глазунов... in Machine learning
Макс документную частоту просто срезать
источник

RS

Ruslan Sabirov in Machine learning
источник

АГ

Артём Глазунов... in Machine learning
Это да..)
источник

IN

Ivan Nazhestkin in Machine learning
Чтобы не было проблемы с меньшим классом, надо пытаться oversampling сделать?)
А я правильно понял, что это так:

Найти k ближайших соседей каждого объекта меньшего класса, найти векторы от этого объекта до каждого соседа, и умножить кажлый вектор на число от 0 до 1

"To create a synthetic data point, take the vector between one of those k neighbors, and the current data point. Multiply this vector by a random number x which lies between 0, and 1."

html-теги и прочие вещи вроде   я удалил
источник

АГ

Артём Глазунов... in Machine learning
Хотя труд закаляет)
источник

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
Чтобы не было проблемы с меньшим классом, надо пытаться oversampling сделать?)
А я правильно понял, что это так:

Найти k ближайших соседей каждого объекта меньшего класса, найти векторы от этого объекта до каждого соседа, и умножить кажлый вектор на число от 0 до 1

"To create a synthetic data point, take the vector between one of those k neighbors, and the current data point. Multiply this vector by a random number x which lies between 0, and 1."

html-теги и прочие вещи вроде   я удалил
Там встроенные есть
источник

АГ

Артём Глазунов... in Machine learning
Там идея заполнять некоторыми похожими, но не дублями
источник