ну я не агитирую, явно что-то интереснее можно придумать, но тут меньше вероятность оверфиттинга и эти слова легко можно узнать а гуглтрармлейте для каждого языка
ну так то даже у меня на питоне параллельно группируются категории со 100% загрузкой cpu, но группа в 10к будет очень долго сортироваться, при том, что либы которые это делают написаны на c