Что предпочтительнее PCA или откинуть категории некоррелируемые ?
Я думаю, сначала откинуть категории с наименьшими коэффициентами в регрессии (корреляция с target variable), потом посмотреть на корреляции между самими переменными (multicollinearity problem) и либо выкинуть лишние, либо соединить в одну переменную связанные столбцы, потом если всё ещё останется слишком много переменных делать pca. В среднем, модели строятся быстрее с меньшим количеством взаимосвязанных переменных, но переменные после анализа компонент плохо интерпретируемы, что может вызвать вопросы, если модель надо будет показывать каким-нибудь stakeholders.