Кстати, если есть возможность, можно попробовать вручную разметить датасет и проставить реальные классы для 1-5 тыс примеров, применить на них RandomForestClassifier и посмотреть важность фичей (feature_importance).
Если вдруг окажется, что категориальные фичи не очень важны, то их можно будет отбросить