Добрый день. Решают задачу fraud detection. Данные - временные ряды + текст.
Интересует сейчас кусок с текстом.
Проблема фрода - это дикий дисбаланс классов. Просто отрезать "не фродовые" сообщения, чтобы уравнять классы кажется плохой идеей.
Можно ли в склерне или в имблерне (imbalanced) сделать такую штуку: с помощью какой-нибудь K-fold брать данные из обоих классов "с возвращением"?
Типа, взяли по 10 записей из каждого класса - это первая выборка, вернули в кучки, перемешали, потом взяли еще по 10 записей - и так k раз.
И еще, чтобы два раза не вставать, можно ли так:
- взять фродовые тексты, превратить их в вектора, затем с помощью SMOTE посчитать дополнительные синтетические вектора внутри "фродового" класса, чтобы уравнять??
Спасибо заранее.