Добрый вечер!
Подскажите, пожалуйста, есть ли какое-то оптимальное количество значений, которые может принимать категориальная переменная в модели?
Собираюсь строить рэндом форест и бустинг, некоторые категориальные переменные имеют по 10+ значений, насколько я понимаю, это плохо для encoding
(Все это гуглила, везде разная информация, поэтому обращаюсь сюда за советом)
Тут вопрос не в оптимальном количестве категорий, а в способах кодирования. Можно ввести гиперпараметр для порогового числа категорий(скажем, 30), для признаков, где меньше, использовать one hot, для остальных ordinal или mean encoding. Этот гиперпараметр подобрать на кросс-валидации. Вообще, для деревьев one hot не рекомендуют, конечно, использовать, но при малом числе категорий все равно его используют.