Егор Овчинников
Всем привет! Поправьте пожалуйста, если я не правильно понимаю... Feature selection показывает важные признаки, уменьшение размерности(например PCA) "ищет возможность объединения схожей информации" в разных признаках, за счет чего уменьшается размерность.
Применительно к той задаче с каггла могу сказать, что мне понижение пространства результат не принесло. Искал корреляции, зависимость по крамеру, но самым полезным оказалось отбор признаков после обучения на градиентном бустинге по индексу джини (там может и не джини в классическом понимании, не берусь утверждать). То есть подаёшь в модель 100, 200, 300, ..., признаков и удаляешь те которые мало внесли вклада. Потом опять запускаешь модель, отбираешь признаки и тд. Часто после такого отбора качество немного улучшается. Но я не уверен, что это универсальный и самый хороший способ, но мне помогало. Особенно когда признаков больше 500