Вопрос на счет feature selection, теоретически нам рассказывали, что если есть фичеры, у которых корреляция высокая, например я взял 0.93, то можно один из них убрать.
С другой стороны, чисто для проверки, я проверил какая точность при использование только одного, потом двух, трех и четырех фичеров, которые ранее в процессе показали такую корреляцию.
Более чем это, я сделал Exhaustive Feature Selector на эти четыре фичера (и только на них, из изначально где то сорока), и по обоим экспериментам получил, что все же выбор нескольких только из них дает лучшие результаты, чем оставить только один из этого сета коррелирующих.
Чем это объясняется ? Тем что я оставил только 4 фичера из всех, и возможно при таком малом количестве информации, любая дополнительная информация повышает точность предсказания ?
Или все же лучше не искать вручную такие высоко-коррелирующие фичеры и дать самим алгоритмам выбирать самые лучшие фичеры ?