Всем привет!
Есть поэтический корпус русского языка:
https://github.com/IlyaGusev/PoetryCorpus/Он большой и я его использую, спасибо Илье Гусеву!
Однако в нём есть проблемы, одна из них: поскольку он был составлен из текстов с поэтических сайтов, куда (очевидно) часто тексты попадали путём OCR (причём не самого умного, по-видимому), встречаются слова с гомоглифами, к примеру:
Bздымали
(в нижнем регистре:
bздымали
; источник:
https://rupoem.ru/pasternak/segodnya-my-ispolnim.aspx).
Хочу эту проблему исправить (и законтрибьютить обратно, как в корпус, так и на сайты с "оригиналом"), причём по максимуму без участия человека и готовыми средствами.
На ум сразу пришли spellchecker-ы. Однако тут есть сразу несколько проблем:
1. Большая часть не учитывает контекст и может предложить несколько вариантов и самый популярный может оказаться неправильным.
2. В словаре может не быть слова, потому что в поэзии много высокой лексики, не используемой в жизни.
3. В слове может быть очень много неправильных букв. Например: "aвгуcma" (3 латинских символа).
Эта задача уже решалась фирмами типа ABBYY, но вот есть ли свободные решения для этого? Желательно — либа Python, хотя standalone CLI программа, запускающаяся на современном GNU/Linux, тоже подойдёт. Мой быстрый гуглёж не дал результатов, возможно, я плохо искал.
Есть ли у кого на примете решения для такой задачи?