ну смари
у тебя есть вокабуляр протокененных слов закинутых уже в пространство
очевидно большинство слов токенизируются в беспорядочном порядке
ты выкладываешь их в пространство и каким-то образом кластеризуешь, например по похожести АЛФАВИТНОМ, но по факту у тебя только токены
евклидова мера уже будет невалидна