есть вопрос :
как правильно поступить в ситуации : допустим у нас есть 2 слова בש и דבש
и мне нужно находить по ним расстояния.
На самом деле разница между ними в 1 символ, но они же превращаются в юникод : "\u05d7\u05dc\u05d1" и "\u05dc\u05d1"
И в итоге разница уже далеко не 1 символ, а целых 6.
Есть вариант заменять \u05d7 на символ из string.ascii_letters, и находит расстояние "с маской" : "\u05d7\u05dc\u05d1" -> abc ; "\u05dc\u05d1"-> ab.
Как правильно это обработать ?
Расстояние находит ливенштейн, но менять в ливенштейне ничего нельзя. Надо использовать предобработку