Телеграмм чат группы bigdata

*выглядит как гуру* Нужно использовать те методы, которые сохраняют большее количество информации и зарекомендовали себя на данный момент. Иными словами, идти на поводу у толпы и моды.

источник

20:52пожаловаться #6

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Евгений Томилов

Вопрос по SMOTE...можно его использовать для текстовых данных?

источник

21:12пожаловаться #7

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Anton

Вопрос по SMOTE...можно его использовать для текстовых данных?

Я не знаю, поскольку я работал с текстовыми данными один раз в жизни.

источник

21:14пожаловаться #8

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

И я не совсем в курсе, как там фичи делают и что вообще происходит.

источник

21:14пожаловаться #9

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Евгений Томилов

Я не знаю, поскольку я работал с текстовыми данными один раз в жизни.

Спасибо.

источник

21:15пожаловаться #10

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Anton

Вопрос по SMOTE...можно его использовать для текстовых данных?

Da конечно, читаю щас про эту статью

источник

22:33пожаловаться #11

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

Da конечно, читаю щас про эту статью

скинь ссылку

источник

22:33пожаловаться #12

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Anton

скинь ссылку

https://medium.com/@satishkorapati/dealing-with-imbalanced-dataset-for-multi-class-text-classification-having-multiple-categorical-2a43fc8de009

Medium

Dealing with Imbalanced Dataset for Multi-Class text classification having Multiple Categorical Features

SGDClaasifier, Natural Language Processing, SMOTE, RandomOverSampler, ColumnTransformer

источник

22:34пожаловаться #13

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ребят, если я нагенерил синтетические данные с помощью SMOTE (получил сбалансированный датасет) и потом после кросвалдиации 20 шт. усреднил метрики и получил recall =0.928 precision=0.93 f1 = 0.927887 , это нормально ? Мм, так можно делать или я в чём-то ошибаюсь ?

источник

23:41пожаловаться #14

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Почему такие высокие метрики

источник

23:41пожаловаться #15

2020 September 18

Alexandr in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

Почему такие высокие метрики

Это норма

источник

00:55пожаловаться #16

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Alexandr

Это норма

То есть так можно?

источник

00:58пожаловаться #17

Serhii Tiurin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

То есть так можно?

ты валидируешься в том числе и на своих же синтетических данных?

источник

00:59пожаловаться #18

Serhii Tiurin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

20 фолдов слишком много для cv

источник

00:59пожаловаться #19

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

По-хорошему, нужно SMOTE делать внутри ресэмплов. То есть, мы делаем SMOTE на 9 частях, которые в данный момент являются трейном. И тестим на 10-й части без SMOTE. И так далее. Это заморочно, но более правильно.

источник

02:03пожаловаться #20