Ну сначала картинка бьется на символы, потом каждый символ загоняется в анализатор, который использует нейросеть.
Для нее делается выборка разнообразных написаний каждой с эталонными значениями и обучается.
Ну а дальше она с определенной степерью вероятности соотносит изображения с эталонами.
Ну эт так, на пальцах, под капотом несколько сложнее все