Size: a a a

Natural Language Processing

2021 April 15

DS

Daria Samsonova in Natural Language Processing
проблема не в пос-теггерах, а в том, что в английском в целом более бедная морфология, поэтому и инфы меньше, у них просто нет грамматических падажей, родов и склонений, спряжений, нет деепричастий как части речи вообще, поэтому и инфы такой не будет
источник

DS

Daria Samsonova in Natural Language Processing
для существительных в английском  вообще есть только категория числа, одушевленности/неодушевленности и определенности, на этом все)
источник

N

Natalia in Natural Language Processing
в контексте роль слова понять можно примерно одинаково хорошо примерно в любом языке
источник

N

Natalia in Natural Language Processing
что за английская несуразица имеется в виду, непонятно (т.е. и непонятно, что советовать)
источник

N

Natalia in Natural Language Processing
что такое "инфа"? в какие поля вы смотрите? тэгсет того же penn treebank довольно подробный, в формате conll нужно смотреть в features
источник

VM

Victor Maslov in Natural Language Processing
я о том, что, например, склонение -- это чисто свойство слова, вне контекста, а падеж определяется уже в контексте, и mystem его, не считая некоторых ошибок, в принципе предоставляет, а те тулзы вроде нет

плюс некоторые слова в английском состоят из нескольких слов, и другие могут вставляться прям между, и это как бы намекает, что мне надо заюзать не только пос-теггеры, а что-то еще для определения структуры предложения, но это сильно усложнит мое решение, которое для русского оказалось достаточным
источник

N

Natalia in Natural Language Processing
потому что если вы смотрите на тупо часть речи, то да, вы можете проигнорировать разницу по числу или времени, но если вы берёте тэг целиком, то в чём проблема понять, что speaks и reads — одного поля ягода?
источник

N

Natalia in Natural Language Processing
склонения не существуют в вакууме вне падежей :))
источник

DS

Daria Samsonova in Natural Language Processing
думаю речь про то, что падеж словоизменительная категория, а склонение - нет)
источник

N

Natalia in Natural Language Processing
существует синтаксическая разметка, в формате UD теги flat и compound или типа того для того, что вам кажется "сложным словом"
источник

VM

Victor Maslov in Natural Language Processing
"английская несуразица" -- то, что получается сразу после замены слов без дополнительных полировок
источник

N

Natalia in Natural Language Processing
склонение — вообще не категория
источник

TM

Toemik Mnemonic in Natural Language Processing
Привет. Столкнулись с занятной ситуацией. в одной из русскоязычных моделей Spacy слово "др" имеет вектор (мы ожидали что вектора нет и его придется добавлять). но как оказалось это не "день рождение" и даже не "др."/"друг"  Есть версии в чем может быть дело? баг или фича?)
источник

VM

Victor Maslov in Natural Language Processing
во все без разбора
источник

N

Natalia in Natural Language Processing
других? другим? другое?
источник

TM

Toemik Mnemonic in Natural Language Processing
используется следующая модель: ru2_nerus_800ks_96 . правда давно не пулили ее.
источник

Е

Егорка in Natural Language Processing
Так выведите наиболее похожие слова просто
источник

VM

Victor Maslov in Natural Language Processing
со speaks и reads проблем нет, но внезапно does тегируется также само, хотя значить может что угодно
источник

TM

Toemik Mnemonic in Natural Language Processing
не, это все однокоренные с другое,  расстояние будет тоже самое
источник

TM

Toemik Mnemonic in Natural Language Processing
у объектов Spacy есть такой метод?
источник