Size: a a a

Natural Language Processing

2020 November 26

БД

Борис Добров... in Natural Language Processing
Нормализация большая проблема, и очень ограничено может решаться в рамках одного текста.
Даже по коллекции куча проблем.

С чего программе считать, что различаются в одну букву имена это одно и то же?
источник

A

Alexander in Natural Language Processing
Пупкин и Папкин например
источник

AB

Alexey Burnakov in Natural Language Processing
Alex Wortega
специально для вас
А что тут? Нормализованная форма неправильная "Навальным". Это самая часто встреющася ошибка
источник

AW

Alex Wortega in Natural Language Processing
выход из ячейки навальный
источник

AW

Alex Wortega in Natural Language Processing
нормализуется навальным
источник

AB

Alexey Burnakov in Natural Language Processing
Ну да
источник

AB

Alexey Burnakov in Natural Language Processing
это и есть кейс
источник

БД

Борис Добров... in Natural Language Processing
Ну и что, может это тайский политик Навальным?+
источник

AB

Alexey Burnakov in Natural Language Processing
Навальный почти везде плохо нормализуется, а с ним новостей тысячи
источник

SD

Sergey Dulikov in Natural Language Processing
На скриншоте правильно нормализовано
источник

AB

Alexey Burnakov in Natural Language Processing
Борис Добров
Ну и что, может это тайский политик Навальным?+
Да я понимаю ваш юмор и все такой. Я отдаю (пока теоретически) Редакции пары ФИО отличающихся на символ и в 9% случаев это ошибка нормализации, а не опечатка. и это плохо ( И об и разговор.
источник

БД

Борис Добров... in Natural Language Processing
Это уже модель, применимость ограничена.
источник

AW

Alex Wortega in Natural Language Processing
Sergey Dulikov
На скриншоте правильно нормализовано
я плохо знаю русский язык, но мне тоже так кажется
источник

DG

Denis Gordeev in Natural Language Processing
Alexey Burnakov
Навальный почти везде плохо нормализуется, а с ним новостей тысячи
Natasha использует нормализатор из pymorphy2 (так что ваша ругань вообще не по адресу). Pymorphy2 использует тексты из opencorpora и не учитывает контекст. Opencorpora собирался в своей массе еще до 2014г., так что там новых популярных фамилий (типа Навального) там не будет.
источник

AB

Alexey Burnakov in Natural Language Processing
Sergey Dulikov
На скриншоте правильно нормализовано
Ну давайте вам еще один дам.
источник

A

Alexander in Natural Language Processing
Можно попробовать нормализацию при помощи mystem
источник

A

Alexander in Natural Language Processing
Он лучше контекст учитывает
источник

БД

Борис Добров... in Natural Language Processing
Когда у Вас миллионы текстов, то индекс набить неправильным вариантами.
И это проблема.

И это не проблема выделения NE  по тексту.
Это проблема системы.
источник

AB

Alexey Burnakov in Natural Language Processing
Sergey Dulikov
На скриншоте правильно нормализовано
ПОЛИТИКА: РОССИЯ-ЕС-НАВАЛЬНЫЙ-НЕСТЫКОВКИ\r\nРФ надеется, что депутаты Европарламента заметят нестыковки в деле Навального - Чижов\r\n\r\nМОСКВА, 17 сентября. /ТАСС/. Россия разослала вопросы депутатам Европарламента в расчете на то, что какая-то их часть обратит внимание на массу нестыковок в версии об отравлении блогера Алексея Навального. Об этом заявил в четверг постпред РФ при ЕС Владимир Чижов в эфире телеканала \"Россия-24\".\r\n\"Мы не обращались официально в Европарламент. Мы разослали наш вопросник среди депутатов, исходя из того, что здравомыслящая их часть - мы, конечно, не тешили себя иллюзиями, что их будет большинство, - все же задумается, задаст себе эти вопросы и обратит внимание на ту массу нестыковок, с которыми связана вся эта история\", - сказал он.\r\nПостоянное представительство России при Евросоюзе ранее направило депутатам Европарламента и институтам ЕС девять вопросов по обвинениям в адрес Москвы со стороны Запада в связи с инцидентом с Навальным, указав на ключевые нестыковки в версии о его отравлении.\r\nНавальный был госпитализирован в Омске 20 августа после того, как ему стало плохо на борту самолета. Позже блогера доставили в Берлин и поместили в клинику \"Шарите\". Правительство ФРГ выступило с утверждением, что он подвергся воздействию отравляющего вещества из группы \"Новичок\". Официальный представитель президента России Дмитрий Песков заявил, что Москва открыта к сотрудничеству с Берлином по ситуации с Навальным, а в МИД указали на то, что российской стороне не было передано никаких доказательств обвинений.
источник

SD

Sergey Dulikov in Natural Language Processing
Alexey Burnakov
А что тут? Нормализованная форма неправильная "Навальным". Это самая часто встреющася ошибка
Я про этот скриншот
источник