Телеграмм чат группы natural_language

2019 December 17

A

A in Natural Language Processing

Hi, i have a question
Thanks for attention this

What is the difference between #masked and #unmasked datasets/data?

источник

15:55пожаловаться #1

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

А какие? Спрашивал в этом же чате - никто не подсказал.

Трибанк -- UD-SynTagRus,
или парсеры готовые -- spacy, udpipe

источник

15:55пожаловаться #2

ck

cnstntn kndrtv in Natural Language Processing

Yuri Baburov

Трибанк -- UD-SynTagRus,
или парсеры готовые -- spacy, udpipe

Это синтаксис. Выдают синтаксические связи. Или я что-то не так понял?
Думал вначале описать правила преобразования ud-связей в нужные мне предикаты. Например Дома №1, 2, 3. Нужно представить 3мя тройками вида "Дом--имеетНомер--Х". Не осилил.
Решил что кс-правила (Yargy) проще. Ну а когда накопится размеченный текст - обучу классификатор.

источник

16:02пожаловаться #3

ck

cnstntn kndrtv in Natural Language Processing

И вот в этом случае чанкинг, который выдаст NP проще. Но я буду очень рад, если вы меня толкнете на верный путь

источник

16:03пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

Это синтаксис. Выдают синтаксические связи. Или я что-то не так понял?
Думал вначале описать правила преобразования ud-связей в нужные мне предикаты. Например Дома №1, 2, 3. Нужно представить 3мя тройками вида "Дом--имеетНомер--Х". Не осилил.
Решил что кс-правила (Yargy) проще. Ну а когда накопится размеченный текст - обучу классификатор.

А почему не получилось сделать семантику поверх синтаксиса?

источник

16:05пожаловаться #5

ck

cnstntn kndrtv in Natural Language Processing

Yuri Baburov

А почему не получилось сделать семантику поверх синтаксиса?

Не понял, как. С зависимостями есть четкое понимание, а с составляющими - нет.

источник

16:06пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

И вот в этом случае чанкинг, который выдаст NP проще. Но я буду очень рад, если вы меня толкнете на верный путь

Чанкинг проще для задач аналогичных NER, в томита и ярги делается. Да, низкая полнота при этом.

источник

16:06пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

Не понял, как. С зависимостями есть четкое понимание, а с составляющими - нет.

Не наоборот? Раз сделали чанкинг?

источник

16:08пожаловаться #8

ck

cnstntn kndrtv in Natural Language Processing

Yuri Baburov

Не наоборот? Раз сделали чанкинг?

Наоборот.

источник

16:10пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

Не понял, как. С зависимостями есть четкое понимание, а с составляющими - нет.

noun в дереве с его зависимостями -- это и есть noun phrase. Не работает такое?

источник

16:10пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

mel kaye

я пробовал это, но компьютеры себя не оправдали

Парсеры обычно не знают о правиле неповторения валентностей, примеров обратного им не приводят (и не наказывают). Мне кажется, дело в этом

источник

16:15пожаловаться #11

m

mel kaye in Natural Language Processing

Yuri Baburov

Парсеры обычно не знают о правиле неповторения валентностей, примеров обратного им не приводят (и не наказывают). Мне кажется, дело в этом

ну суть даже не в этом. я думал мне подскажут что сейчас bleeding edge в области синтаксических парсеров

источник

16:17пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

mel kaye

ну суть даже не в этом. я думал мне подскажут что сейчас bleeding edge в области синтаксических парсеров

StanfordNLP на 0.5% точнее, но он N^3 вместо N^2 как spacy и udpipe

источник

16:17пожаловаться #13

ck

cnstntn kndrtv in Natural Language Processing

Yuri Baburov

noun в дереве с его зависимостями -- это и есть noun phrase. Не работает такое?

Такое работает. Но у меня нет полного понимания. Может быть есть примеры? Мне видится как-то так - токены в дереве UD можно собрать в NER и уже потом преобразовать синтаксические связи в семантические.

источник

16:19пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

Yuri Baburov

StanfordNLP на 0.5% точнее, но он N^3 вместо N^2 как spacy и udpipe

Данные для английского, для русского там факторов больше на практике. Свои нюансы.

источник

16:19пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

Такое работает. Но у меня нет полного понимания. Может быть есть примеры? Мне видится как-то так - токены в дереве UD можно собрать в NER и уже потом преобразовать синтаксические связи в семантические.

Язык так устроен. Синтаксическая связь -- вопрос от одного слова к другому слову или группе слов. Тип связи — ответ на вопрос. Это же и одновременно синтаксическая роль, которую размечает constituency parser. Разница в том, что в 1970м парсер на O(N^3) был непрактичен, и даже проективный O(N^2) парсер был непрактичен, и влезающую в компьютеры лингвистическую нейросеть для O(N) (линейного) shift-reduce парсера ещё не придумали.
Поэтому написали упрощённые правила для определения этих ролей, и огрубили роли, чтобы правила реже ошибались. Для английского даже как-то работало.

источник

16:25пожаловаться #16

ck

cnstntn kndrtv in Natural Language Processing

Yuri Baburov

Язык так устроен. Синтаксическая связь -- вопрос от одного слова к другому слову или группе слов. Тип связи — ответ на вопрос. Это же и одновременно синтаксическая роль, которую размечает constituency parser. Разница в том, что в 1970м парсер на O(N^3) был непрактичен, и даже проективный O(N^2) парсер был непрактичен, и влезающую в компьютеры лингвистическую нейросеть для O(N) (линейного) shift-reduce парсера ещё не придумали.
Поэтому написали упрощённые правила для определения этих ролей, и огрубили роли, чтобы правила реже ошибались. Для английского даже как-то работало.

И до сих пор, тот же Jurafsky описывает примеры на составляющих. И по тому что я видел в описаниях продуктов типа PoolParty, Megaputer - они тоже используют такие простые правила. Не хочется повторять за ними, но другого видения у меня нет.
Может быть ты встречал примеры?

источник

16:32пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

cnstntn kndrtv

И до сих пор, тот же Jurafsky описывает примеры на составляющих. И по тому что я видел в описаниях продуктов типа PoolParty, Megaputer - они тоже используют такие простые правила. Не хочется повторять за ними, но другого видения у меня нет.
Может быть ты встречал примеры?

это потому, что примеры на английском. там нагляднее, но вот dep parser вполне может ставить те же атрибуты — NP и VP, я думаю, я показал, как их расставить на dep tree.

источник

16:33пожаловаться #18

ck

cnstntn kndrtv in Natural Language Processing

Yuri Baburov

это потому, что примеры на английском. там нагляднее, но вот dep parser вполне может ставить те же атрибуты — NP и VP, я думаю, я показал, как их расставить на dep tree.

Спасибо.

источник

16:38пожаловаться #19

AK

Anton Kazennikov in Natural Language Processing

По практической реализации морфологии/синтаксиса еще интересно почитать "Лингвистическое обеспечение системы ЭТАП-2" http://proling.iitp.ru/bibitems/books/etap2.zip и "Лингвистический процессор для сложных информационных систем" http://proling.iitp.ru/bibitems/books/lingproc.zip Лаборатории компьютерной линвистики ИППИ РАН

источник

17:36пожаловаться #20