Size: a a a

Natural Language Processing

2019 December 17

ck

cnstntn kndrtv in Natural Language Processing
Раз уж (опять) зашла речь о семантике. Посоветуйте литературу, где описан стройный структурированный подход к семантическому анализу с практическими примерами (на каком-нибудь языке программирования, или хотябы псевдокоде)
источник

YB

Yuri Baburov in Natural Language Processing
Я всегда рекомендую одну по синтаксису :
ЯГ Тестелец введение в общий синтаксис
И две по семантике :
Апресян Модель смысл текст
И
Тузов компьютерная семантика русского языка
источник

Y

Yurii in Natural Language Processing
Yuri Baburov
Я всегда рекомендую одну по синтаксису :
ЯГ Тестелец введение в общий синтаксис
И две по семантике :
Апресян Модель смысл текст
И
Тузов компьютерная семантика русского языка
А для анг?
источник

YB

Yuri Baburov in Natural Language Processing
Мэннинг Журафский ⬆️
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Раз уж (опять) зашла речь о семантике. Посоветуйте литературу, где описан стройный структурированный подход к семантическому анализу с практическими примерами (на каком-нибудь языке программирования, или хотябы псевдокоде)
У тестельца кстати семантика тоже затрагивается
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
Мэннинг Журафский ⬆️
Курс Manning jurafsky,
А книга jurafsky Martin
источник

ck

cnstntn kndrtv in Natural Language Processing
Тузова вроде бы не читал, спасибо. Амперсян, Тестелец вроде больше теоретики. На русском есть Леонтьева - её редко вспоминают, она говорила (писала) что её модель универсальная для всех языков. Знаком с ней, есть её словари, черновики и все её идеи есть в АОТ - вот это практично. АОТ кстати должен, если правильно помню, быть мультиязычным. Но документация к АОТ дается с большим трудом.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Тузова вроде бы не читал, спасибо. Амперсян, Тестелец вроде больше теоретики. На русском есть Леонтьева - её редко вспоминают, она говорила (писала) что её модель универсальная для всех языков. Знаком с ней, есть её словари, черновики и все её идеи есть в АОТ - вот это практично. АОТ кстати должен, если правильно помню, быть мультиязычным. Но документация к АОТ дается с большим трудом.
В AOT слишком много вредных упрощений, например, про именные группы
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
В AOT слишком много вредных упрощений, например, про именные группы
Просто они хотели грубый линейный проективный парсер на правилах, в 2001 году это было актуально.
Так что теория может и норм, а вот практики с AOT я бы поостерегся
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Тузова вроде бы не читал, спасибо. Амперсян, Тестелец вроде больше теоретики. На русском есть Леонтьева - её редко вспоминают, она говорила (писала) что её модель универсальная для всех языков. Знаком с ней, есть её словари, черновики и все её идеи есть в АОТ - вот это практично. АОТ кстати должен, если правильно помню, быть мультиязычным. Но документация к АОТ дается с большим трудом.
Амперсян 🤣 теперь только так и буду его звать, классная опечатка)
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
Амперсян 🤣 теперь только так и буду его звать, классная опечатка)
надеюсь, он не обидится
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
Я всегда рекомендую одну по синтаксису :
ЯГ Тестелец введение в общий синтаксис
И две по семантике :
Апресян Модель смысл текст
И
Тузов компьютерная семантика русского языка
Тут меня тоже память подвела. Мельчук и Жолковский "модель смысл текст"
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
В AOT слишком много вредных упрощений, например, про именные группы
Чем плохи именные группы? Делаю семанический анализатор, простой (семантика тут - только в понимании заданного RDF-графа). Использую грамматики составляющих. Точнее упрощенный чанкинг.  Общая схема - выделить сущности, между ними найти ребра. Какие опасности могут меня ожидать на этом пути?
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Чем плохи именные группы? Делаю семанический анализатор, простой (семантика тут - только в понимании заданного RDF-графа). Использую грамматики составляющих. Точнее упрощенный чанкинг.  Общая схема - выделить сущности, между ними найти ребра. Какие опасности могут меня ожидать на этом пути?
Точность низкая.
источник

СУ

Сергей Устьянцев in Natural Language Processing
Yuri Baburov
Тут меня тоже память подвела. Мельчук и Жолковский "модель смысл текст"
Апресян всё равно там рядом )
источник

СУ

Сергей Устьянцев in Natural Language Processing
Сорри, Амперсян
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
Точность низкая.
У них же именная группа -- неразрывная последовательная существительных и прилагательных (не помню, одного падежа или нет?)
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
Точность низкая.
Полнота точно низкая - нужно постоянно правила обновлять. Пока не упрусь в коллизии. Не имея размеченного текста я ничего лучше не придумал.
источник

YB

Yuri Baburov in Natural Language Processing
cnstntn kndrtv
Полнота точно низкая - нужно постоянно правила обновлять. Пока не упрусь в коллизии. Не имея размеченного текста я ничего лучше не придумал.
А почему не взял готовые элементы?
источник

ck

cnstntn kndrtv in Natural Language Processing
Yuri Baburov
А почему не взял готовые элементы?
А какие? Спрашивал в этом же чате - никто не подсказал.
источник