Size: a a a

Natural Language Processing

2020 November 26

AB

Alexey Burnakov in Natural Language Processing
Проблема в том, что я получаю неправильные склонения вместо опечаток в 99+% случаев
источник

БД

Борис Добров... in Natural Language Processing
Еще раз.
Тогда надо править опечатки.
Опечатки в конце концов сидят либо на словаре, либо на чем-то типа fasttext (посимвольных нейросетях), хотя не уверен, что второе поможет с азиатскими и прочими именами.
Нужен исправитель опечаток с возможностью пополнения словаря.
Словарь для исправления набрать по нормальным текстам (ТАСС тоже можно взять :) ) - по 10-100 миллионам, лучше с рубриками разных регионов. Редкие формы выбросить.

Плюс словарь перекодирования результатов. Потому что "Барака" это и рп,вп от "Барак", но и может легко быть отдельным именем в ип.

А лучше заплатить (не мне - это скучная работа).
И тех.сопровождение, так как новые имена валятся.

Тут новая администрация в США, там и "Джо Байдена", и "Крис(а) Кун(а)", завтра еще кто-то подвалит.
источник

AB

Alexey Burnakov in Natural Language Processing
Борис Добров
Еще раз.
Тогда надо править опечатки.
Опечатки в конце концов сидят либо на словаре, либо на чем-то типа fasttext (посимвольных нейросетях), хотя не уверен, что второе поможет с азиатскими и прочими именами.
Нужен исправитель опечаток с возможностью пополнения словаря.
Словарь для исправления набрать по нормальным текстам (ТАСС тоже можно взять :) ) - по 10-100 миллионам, лучше с рубриками разных регионов. Редкие формы выбросить.

Плюс словарь перекодирования результатов. Потому что "Барака" это и рп,вп от "Барак", но и может легко быть отдельным именем в ип.

А лучше заплатить (не мне - это скучная работа).
И тех.сопровождение, так как новые имена валятся.

Тут новая администрация в США, там и "Джо Байдена", и "Крис(а) Кун(а)", завтра еще кто-то подвалит.
Аа вот Вы (с большой) о чём
источник

AB

Alexey Burnakov in Natural Language Processing
Авторедактор текстов пропускает опечатки в фамилиях
источник

БД

Борис Добров... in Natural Language Processing
С "большой" - это о другом.
Это стандартное правило различной обработки слов с прописной и строчной.
источник

БД

Борис Добров... in Natural Language Processing
Alexey Burnakov
Авторедактор текстов пропускает опечатки в фамилиях
Беда... Придется платить...
источник

AB

Alexey Burnakov in Natural Language Processing
Борис Добров
Беда... Придется платить...
Я сам разрабатвываю эту специыческую форму коррекции
источник

AB

Alexey Burnakov in Natural Language Processing
Там нет словарей, есть граф.
источник

AB

Alexey Burnakov in Natural Language Processing
Граф уже встречавшихся ФИО, по ним и идет коррекция.
источник

AB

Alexey Burnakov in Natural Language Processing
Но с нормализацией беда, это узкое место
источник

БД

Борис Добров... in Natural Language Processing
"сам разрабатываю" и наезд на создателя библиотеки - это хуцпа
источник

AB

Alexey Burnakov in Natural Language Processing
Борис Добров
"сам разрабатываю" и наезд на создателя библиотеки - это хуцпа
Я не владею этим аппаратом слов
источник

AB

Alexey Burnakov in Natural Language Processing
Ему был дан набор ошибок, и все этим кончилось как факт
источник

AB

Alexey Burnakov in Natural Language Processing
Объяснения могут любые
источник

БД

Борис Добров... in Natural Language Processing
Буквальный перевод - "дерзость", но у нас в дестве говорили "сверхнаглость".
источник

AB

Alexey Burnakov in Natural Language Processing
Я его изнасиловал, например
источник

AB

Alexey Burnakov in Natural Language Processing
Борис Добров
Буквальный перевод - "дерзость", но у нас в дестве говорили "сверхнаглость".
А ну это есть, наболело
источник

AB

Alexey Burnakov in Natural Language Processing
В общем. Я понял так что либо платно либо делать словарь
источник

AB

Alexey Burnakov in Natural Language Processing
Наверное словарь самых частых ошибок я сделаю. Таки да?)
источник

V

Vlad in Natural Language Processing
Попробуйте сначала перед Наташей прикрутить тот же https://jamspell.com/ например. Pro версия стоит всего 40$, а работает вполне хорошо.

Либо просто погуглить про задачу spell checker, сравнить имеющиеся решения и доработать понравившееся под себя
источник