Size: a a a

Natural Language Processing

2020 May 12

M

M&M in Natural Language Processing
Спасибо!!!
источник

ZZ

Zigfrid Zvezdin in Natural Language Processing
В онлайн-словаре Multitran ищут специалистов для разработки морфологии https://www.multitran.com/m.exe?a=351

> Морфология используется в словаре для поиска слов в любой форме, а также поиска фраз, содержащих заданное слово.
Чем точнее морфологическая модель для данного языка, тем более релевантной будет выдача словаря в этих режимах.

Это что, до сих пор не автоматизировано кем-нибудь в какой-нибудь библиотеке?
источник

YB

Yuri Baburov in Natural Language Processing
Zigfrid Zvezdin
В онлайн-словаре Multitran ищут специалистов для разработки морфологии https://www.multitran.com/m.exe?a=351

> Морфология используется в словаре для поиска слов в любой форме, а также поиска фраз, содержащих заданное слово.
Чем точнее морфологическая модель для данного языка, тем более релевантной будет выдача словаря в этих режимах.

Это что, до сих пор не автоматизировано кем-нибудь в какой-нибудь библиотеке?
"Для некоторых языков, например, русского и английского, морфология на сайте относительно проработана.
Для других, например, немецкого и украинского, морфология есть, но она неточная и нуждается в исправлении.
В остальных языках морфологии нет, и её нужно создать."
Вообще, в UD есть морфология, но только в рамках заполненного датасета (110к словоформ для русского, из более 5 млн). Есть ли общий датасет морфологии? Вроде бы нету.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
"Для некоторых языков, например, русского и английского, морфология на сайте относительно проработана.
Для других, например, немецкого и украинского, морфология есть, но она неточная и нуждается в исправлении.
В остальных языках морфологии нет, и её нужно создать."
Вообще, в UD есть морфология, но только в рамках заполненного датасета (110к словоформ для русского, из более 5 млн). Есть ли общий датасет морфологии? Вроде бы нету.
есть библиотечки, которые статистически/нейросетями определяют параметры для неизвестных слов, да. А им нужно выверять и исправлять, чтобы точная была база, а не слепо доверять библиотечкам.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Да и потом народ до сих пор не может договориться сколько падежей в уже "хорошо проработанном" русском языке. Некоторые источники утверждают что  15.
источник
2020 May 13

YB

Yuri Baburov in Natural Language Processing
Sergey Sikorskiy
Да и потом народ до сих пор не может договориться сколько падежей в уже "хорошо проработанном" русском языке. Некоторые источники утверждают что  15.
по морфологическим характеристикам вроде бы можно выделить 10: 6 стандартных + 3 устаревших формы + звательный, ну и может парочку исключений, а по синтактико-семантическим — хоть миллион, по одному падежу на каждый глагол.
но в системе типа multitran нужно показывать привычную классификацию из учебников, чтобы всем понятно было.
источник

AE

Alex Egorov in Natural Language Processing
Падежей может быть любое количество, всё равно в _реальных_ системах нужно использовать прагматику... )))
источник

SS

Sergey Sikorskiy in Natural Language Processing
Alex Egorov
Падежей может быть любое количество, всё равно в _реальных_ системах нужно использовать прагматику... )))
Сколько падежей в прагматике? :)
источник

AE

Alex Egorov in Natural Language Processing
Сколько падежей в прагматике? :)
Например, у слова кофе - один. ))))
источник

SS

Sergey Sikorskiy in Natural Language Processing
Думаю что очень многие в этом чате с этим не согласятся 🙂
источник

SS

Sergey Sikorskiy in Natural Language Processing
В этом чате где-то год тому назад обсуждался падеж второго существительного во фразе “из грязи в князи”. Аналогично “в президенты”.
Предлог "в" требует после себя либо винительного, либо локатив …
А тут …
источник

KP

Kavita Patil in Natural Language Processing
Suggest any free certificate course for NLP using python
источник

A

Ankur in Natural Language Processing
Kavita Patil
Suggest any free certificate course for NLP using python
Yes pls...do let me know if you get something Kavita
источник

Н

Наташа in Natural Language Processing
Здравствуйте, проблема с NamesExtractor(). Версия natasha 1.1.0
источник

Н

Наташа in Natural Language Processing
Подскажите, что делать в такой ситуации
источник

VR

Vasya Ridikat in Natural Language Processing
Наташа
Здравствуйте, проблема с NamesExtractor(). Версия natasha 1.1.0
там в строчке перед Process finished написано, передайте в конструктор morph
источник

Н

Наташа in Natural Language Processing
Просто у моего партнера по проекту на другом компьютере работает без этого
источник

V

Vlad in Natural Language Processing
Значит у него старая версия библиотеки, на предыдущей версии передавать аргумент в конструктор не нужно
источник

Н

Наташа in Natural Language Processing
Спасибо, сейчас попробуем исправить
источник

IJ

IL Jah in Natural Language Processing
Всем привет. Что я не так делаю - сравнил производительность yargy и tomita на Linux, Python3, задача получение физлица и организации(в наташе из коробки, в томите самописные правила), список из 1500 текстов. По данным измерений - в среднем tomita парсит за 0.27 сек, в то время, как наташа - за 0.07 сек. Yargy+Natasha в 3+ раза быстрее, чем Tomita,

с чем это может быть связано, с необходимостью постоянно дергать бинарь томиты или криворукими правилами для томиты, и как тогда другие люди меряют, все те, кто утверждает, что tomita быстрее, чем yargy? Тут кто нибудь сравнивал производительность двух этих инструментов? Подскажите, пзл, кто имел боевой опыт, в какую сторону копать
источник