Еще раз.
Тогда надо править опечатки.
Опечатки в конце концов сидят либо на словаре, либо на чем-то типа fasttext (посимвольных нейросетях), хотя не уверен, что второе поможет с азиатскими и прочими именами.
Нужен исправитель опечаток с возможностью пополнения словаря.
Словарь для исправления набрать по нормальным текстам (ТАСС тоже можно взять :) ) - по 10-100 миллионам, лучше с рубриками разных регионов. Редкие формы выбросить.
Плюс словарь перекодирования результатов. Потому что "Барака" это и рп,вп от "Барак", но и может легко быть отдельным именем в ип.
А лучше заплатить (не мне - это скучная работа).
И тех.сопровождение, так как новые имена валятся.
Тут новая администрация в США, там и "Джо Байдена", и "Крис(а) Кун(а)", завтра еще кто-то подвалит.