Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 September 17

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
помогает сильно когда спать хочется
источник

Dmitry Рereverzev in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Кто-нибудь замечал корреляцию, что чем ближе дедлайн по задаче , тем больше metallica появляется в музыкальном листе ?
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Евгений Томилов
В общем случае все модели достоверны, но большинство их них бесполезны, при этом андерсэмплинг довольно отстойный метод, попробуйте лучше SMOTE.
Почему если этот метод отстойный он существует (?) Мм..зачем его используют ?
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Как правильно выбрать метод для задачи ?
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Почему если этот метод отстойный он существует (?) Мм..зачем его используют ?
Ну, это моё мнение, основанное на тезисе: выкидывая данные мы теряем информацию. А используют его, потому что он очевидный и лёгкий, я думаю.
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Как правильно выбрать метод для задачи ?
*выглядит как гуру* Нужно использовать те методы, которые сохраняют большее количество информации и зарекомендовали себя на данный момент. Иными словами, идти на поводу у толпы и моды.
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Евгений Томилов
В общем случае все модели достоверны, но большинство их них бесполезны, при этом андерсэмплинг довольно отстойный метод, попробуйте лучше SMOTE.
Вопрос по SMOTE...можно его использовать для текстовых данных?
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Anton
Вопрос по SMOTE...можно его использовать для текстовых данных?
Я не знаю, поскольку я работал с текстовыми данными один раз в жизни.
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
И я не совсем в курсе, как там фичи делают и что вообще происходит.
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Евгений Томилов
Я не знаю, поскольку я работал с текстовыми данными один раз в жизни.
Спасибо.
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Anton
Вопрос по SMOTE...можно его использовать для текстовых данных?
Da конечно, читаю щас про эту статью
источник

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Da конечно, читаю щас про эту статью
скинь ссылку
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Anton
скинь ссылку
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребят, если я нагенерил синтетические данные с помощью SMOTE (получил сбалансированный датасет) и потом после кросвалдиации 20 шт. усреднил метрики и получил recall =0.928 precision=0.93 f1 = 0.927887 , это нормально ? Мм, так можно делать или я в чём-то ошибаюсь ?
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Почему такие высокие метрики
источник
2020 September 18

A

Alexandr in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Почему такие высокие метрики
Это норма
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alexandr
Это норма
То есть так можно?
источник

ST

Serhii Tiurin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
То есть так можно?
ты валидируешься в том числе и на своих же синтетических данных?
источник

ST

Serhii Tiurin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
20 фолдов слишком много для cv
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Ребят, если я нагенерил синтетические данные с помощью SMOTE (получил сбалансированный датасет) и потом после кросвалдиации 20 шт. усреднил метрики и получил recall =0.928 precision=0.93 f1 = 0.927887 , это нормально ? Мм, так можно делать или я в чём-то ошибаюсь ?
По-хорошему, нужно SMOTE делать внутри ресэмплов. То есть, мы делаем SMOTE на 9 частях, которые в данный момент являются трейном. И тестим на 10-й части без SMOTE. И так далее. Это заморочно, но более правильно.
источник