Size: a a a

Natural Language Processing

2019 December 17

A

A in Natural Language Processing
Hi, i have a question
Thanks for attention this

What is the difference between #masked and #unmasked datasets/data?
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
А какие? Спрашивал в этом же чате - никто не подсказал.
Трибанк -- UD-SynTagRus,
или парсеры готовые -- spacy, udpipe
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
Трибанк -- UD-SynTagRus,
или парсеры готовые -- spacy, udpipe
Это синтаксис. Выдают синтаксические связи. Или я что-то не так понял?
Думал вначале описать правила преобразования ud-связей в нужные мне предикаты. Например Дома №1, 2, 3. Нужно представить 3мя тройками вида "Дом--имеетНомер--Х". Не осилил.
Решил что кс-правила (Yargy) проще. Ну а когда накопится размеченный текст - обучу классификатор.
источник

ck

cnstntn kndrtv in Natural Language Processing
И вот в этом случае чанкинг, который выдаст NP проще. Но я буду очень рад, если вы меня толкнете на верный путь
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Это синтаксис. Выдают синтаксические связи. Или я что-то не так понял?
Думал вначале описать правила преобразования ud-связей в нужные мне предикаты. Например Дома №1, 2, 3. Нужно представить 3мя тройками вида "Дом--имеетНомер--Х". Не осилил.
Решил что кс-правила (Yargy) проще. Ну а когда накопится размеченный текст - обучу классификатор.
А почему не получилось сделать семантику поверх синтаксиса?
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
А почему не получилось сделать семантику поверх синтаксиса?
Не понял, как. С зависимостями есть четкое понимание, а с составляющими - нет.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
И вот в этом случае чанкинг, который выдаст NP проще. Но я буду очень рад, если вы меня толкнете на верный путь
Чанкинг проще для задач аналогичных NER, в томита и ярги делается. Да, низкая полнота при этом.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Не понял, как. С зависимостями есть четкое понимание, а с составляющими - нет.
Не наоборот? Раз сделали чанкинг?
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
Не наоборот? Раз сделали чанкинг?
Наоборот.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Не понял, как. С зависимостями есть четкое понимание, а с составляющими - нет.
noun в дереве с его зависимостями -- это и есть noun phrase. Не работает такое?
источник

YB

Yuri Baburov in Natural Language Processing
mel kaye
я пробовал это, но компьютеры себя не оправдали
Парсеры обычно не знают о правиле неповторения валентностей, примеров обратного им не приводят (и не наказывают). Мне кажется, дело в этом
источник

m

mel kaye in Natural Language Processing
Yuri Baburov
Парсеры обычно не знают о правиле неповторения валентностей, примеров обратного им не приводят (и не наказывают). Мне кажется, дело в этом
ну суть даже не в этом. я думал мне подскажут что сейчас bleeding edge в области синтаксических парсеров
источник

YB

Yuri Baburov in Natural Language Processing
mel kaye
ну суть даже не в этом. я думал мне подскажут что сейчас bleeding edge в области синтаксических парсеров
StanfordNLP на 0.5% точнее, но он N^3 вместо N^2 как spacy и udpipe
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
noun в дереве с его зависимостями -- это и есть noun phrase. Не работает такое?
Такое работает. Но у меня нет полного понимания. Может быть есть примеры? Мне видится как-то так - токены в дереве UD можно собрать в NER и уже потом преобразовать синтаксические связи в семантические.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
StanfordNLP на 0.5% точнее, но он N^3 вместо N^2 как spacy и udpipe
Данные для английского, для русского там факторов больше на практике. Свои нюансы.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Такое работает. Но у меня нет полного понимания. Может быть есть примеры? Мне видится как-то так - токены в дереве UD можно собрать в NER и уже потом преобразовать синтаксические связи в семантические.
Язык так устроен. Синтаксическая связь -- вопрос от одного слова к другому слову или группе слов. Тип связи — ответ на вопрос. Это же и одновременно синтаксическая роль, которую размечает constituency parser. Разница в том, что в 1970м парсер на O(N^3) был непрактичен, и даже проективный O(N^2) парсер был непрактичен, и влезающую в компьютеры лингвистическую нейросеть для O(N) (линейного) shift-reduce парсера ещё не придумали.
Поэтому написали упрощённые правила для определения этих ролей, и огрубили роли, чтобы правила реже ошибались. Для английского даже как-то работало.
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
Язык так устроен. Синтаксическая связь -- вопрос от одного слова к другому слову или группе слов. Тип связи — ответ на вопрос. Это же и одновременно синтаксическая роль, которую размечает constituency parser. Разница в том, что в 1970м парсер на O(N^3) был непрактичен, и даже проективный O(N^2) парсер был непрактичен, и влезающую в компьютеры лингвистическую нейросеть для O(N) (линейного) shift-reduce парсера ещё не придумали.
Поэтому написали упрощённые правила для определения этих ролей, и огрубили роли, чтобы правила реже ошибались. Для английского даже как-то работало.
И до сих пор, тот же Jurafsky описывает примеры на составляющих. И по тому что я видел в описаниях продуктов типа PoolParty, Megaputer - они тоже используют такие простые правила. Не хочется повторять за ними, но другого видения у меня нет.
Может быть ты встречал примеры?
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
И до сих пор, тот же Jurafsky описывает примеры на составляющих. И по тому что я видел в описаниях продуктов типа PoolParty, Megaputer - они тоже используют такие простые правила. Не хочется повторять за ними, но другого видения у меня нет.
Может быть ты встречал примеры?
это потому, что примеры на английском. там нагляднее, но вот dep parser вполне может ставить те же атрибуты — NP и VP, я думаю, я показал, как их расставить на dep tree.
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
это потому, что примеры на английском. там нагляднее, но вот dep parser вполне может ставить те же атрибуты — NP и VP, я думаю, я показал, как их расставить на dep tree.
Спасибо.
источник

AK

Anton Kazennikov in Natural Language Processing
По практической реализации морфологии/синтаксиса еще интересно почитать "Лингвистическое обеспечение системы ЭТАП-2" http://proling.iitp.ru/bibitems/books/etap2.zip и "Лингвистический процессор для сложных информационных систем" http://proling.iitp.ru/bibitems/books/lingproc.zip Лаборатории компьютерной линвистики ИППИ РАН
источник