C4W3 C6W1
Задача оттока. В датасете есть числовые признаки и бинарная целевая переменная. Взаимосвязь числовой и бинарной переменной вычислчется через разницу мат ожиданий. В итоге получим разности каждого числового признака и целевой переменной. Эта разность не нормирована, у одного признака разница может большой просто в силу специфики, чем у другого, хотя влияют почти одинаково. Получается, что выстроить в ряд эти значения по убыванию для нахождения самых важных признаков не имеет смысла?
Я масштабировала перед вычислениями. Но если сравнивать "важности", рассчитанные моделью, и вот эти разницы матожиданий, то в 20ку разниц матожиданий попали только несколько признаков, которые по мнению модели внесли наибольший вклад. И в 20ке они далеко не на первых позициях