Size: a a a

Natural Language Processing

2020 April 10

NS

Nikolay Shmyrev in Natural Language Processing
r'ecord vs rec'ord, например, разные слова
источник

V

Vlad in Natural Language Processing
Интересно
Спасибо большое, посмотрю, что там у cmudict
источник
2020 April 11

RB

Rasool Barlybayev in Natural Language Processing
Я не помню, задавал этот вопрос ранее или еще нет. Возможен ли парсер на базе нейронной сети глубокого обучения (Deep Learning Network), быстро транслирующий текст на естественном языке в онтологии (для экономии времени, в качестве разметки пар перевода "текст -> онтология" можно применять парсер ABBYY Compreno), чтобы потом с этими онтологиями работать (решать узкие задачи с использованием логики, потому что общая задача понимания естественного языка - "ИИ-полная")? Как известно, для большого массива документов парсер ABBYY работает очень медленно. В качестве хорошего примера для создания такого подобного парсера я вдохновился GNMT - Google Network Machine Translator, который, как известно, основан на нейронной сети глубокого обучения. Почему я задаю этот вопрос здесь, так это потому что эта идея "лежит на поверхности" и наверняка уже приходила кому-то в голову.
Если идея перспективная, то должны же уже быть получены некоторые результаты применения этой идеи, например, в том же ABBYY? Или это тупиковая идея?
источник

IR

Ilya Runov in Natural Language Processing
Rasool Barlybayev
Я не помню, задавал этот вопрос ранее или еще нет. Возможен ли парсер на базе нейронной сети глубокого обучения (Deep Learning Network), быстро транслирующий текст на естественном языке в онтологии (для экономии времени, в качестве разметки пар перевода "текст -> онтология" можно применять парсер ABBYY Compreno), чтобы потом с этими онтологиями работать (решать узкие задачи с использованием логики, потому что общая задача понимания естественного языка - "ИИ-полная")? Как известно, для большого массива документов парсер ABBYY работает очень медленно. В качестве хорошего примера для создания такого подобного парсера я вдохновился GNMT - Google Network Machine Translator, который, как известно, основан на нейронной сети глубокого обучения. Почему я задаю этот вопрос здесь, так это потому что эта идея "лежит на поверхности" и наверняка уже приходила кому-то в голову.
Если идея перспективная, то должны же уже быть получены некоторые результаты применения этой идеи, например, в том же ABBYY? Или это тупиковая идея?
Если правильно понял вопрос, то да. И нейронные сети, включая построенные на трансформерах, используют для пополнения онтологий. Недавно встречал статью, где авторы утверждали, что трансформеры создают внутри себя онтологию по сути.
источник

YB

Yuri Baburov in Natural Language Processing
Rasool Barlybayev
Я не помню, задавал этот вопрос ранее или еще нет. Возможен ли парсер на базе нейронной сети глубокого обучения (Deep Learning Network), быстро транслирующий текст на естественном языке в онтологии (для экономии времени, в качестве разметки пар перевода "текст -> онтология" можно применять парсер ABBYY Compreno), чтобы потом с этими онтологиями работать (решать узкие задачи с использованием логики, потому что общая задача понимания естественного языка - "ИИ-полная")? Как известно, для большого массива документов парсер ABBYY работает очень медленно. В качестве хорошего примера для создания такого подобного парсера я вдохновился GNMT - Google Network Machine Translator, который, как известно, основан на нейронной сети глубокого обучения. Почему я задаю этот вопрос здесь, так это потому что эта идея "лежит на поверхности" и наверняка уже приходила кому-то в голову.
Если идея перспективная, то должны же уже быть получены некоторые результаты применения этой идеи, например, в том же ABBYY? Или это тупиковая идея?
Сейчас точность технологии растёт, ещё год назад всё было очень плохо, сейчас просто плоховато... Но всё это небыстро работает: 50 предложений в секунду на GPU. С датасетом abbyy, на котором научат нейронку -- будет ещё чуть получше, но его никто нам не даст.
источник

BZ

Below Zero in Natural Language Processing
Konstantin Smith
Есть отличный и "бесплатный" OCR, о котором мало кто знает. И встроен он в Microsoft Office. Да-да! Это MODI - Microsoft Office Document Imaging. Прекрасно работает с русским языком, есть API. Правда, в современные инсталляционные пакеты он с 2010 года не входит, однако спрятан в дистрибутиве SharePoint Designer (https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=21581), который пока свободно можно скачать с сайта.  При этом следует выбирать русскую версию, чтобы там был русский язык.  Там можно отключить все опции, оставив только "Office Tools"\"Microsoft Office Document Imaging".  Разумеется, FineReader лучше, зато этот - бесплатный, и на порядок лучше кривого tisseract. Есть мелкий нюанс: работает строго для одного языка. Если в тексте есть английские вставки, то в режиме "русский" будет их пытаться представить кириллицей. Я делал так: сначала для "русского", потом для "английского", а затем объединял результат (там для каждого слова даётся вероятность).
По ссылке возвращает 404
источник

MM

Mikhail Mashkovich in Natural Language Processing
Below Zero
По ссылке возвращает 404
В гугле поищите Shareapoint designer, есть 2010 и 2013
источник
2020 April 13

V

Vic in Natural Language Processing
Yuri Baburov
Сейчас точность технологии растёт, ещё год назад всё было очень плохо, сейчас просто плоховато... Но всё это небыстро работает: 50 предложений в секунду на GPU. С датасетом abbyy, на котором научат нейронку -- будет ещё чуть получше, но его никто нам не даст.
Привет. А напомните, сейчас уже работает русский NER от Spacy в Rasa?   Я помню были проблемы несколько месяцев назад в его прикрутке
источник

YB

Yuri Baburov in Natural Language Processing
Vic
Привет. А напомните, сейчас уже работает русский NER от Spacy в Rasa?   Я помню были проблемы несколько месяцев назад в его прикрутке
Неа. Пара мелких issues ещё есть.
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Yuri Baburov
Неа. Пара мелких issues ещё есть.
а там есть с чем помочь? может здесь найдется кто-то со временем и способностями
источник

YB

Yuri Baburov in Natural Language Processing
Radion Bikmukhamedov
а там есть с чем помочь? может здесь найдется кто-то со временем и способностями
Вряд ли получится. 1) починить баг с person в 2.2 для модели POS , 2) добавить синглтон для загрузки векторов по имени файла в модели и 3) добавить загрузчик новой модели.
источник

YB

Yuri Baburov in Natural Language Processing
Непонятный (1) всё задерживает сейчас. Остальное -- небольшие технические моменты, дольше объяснять, чем делать.
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Yuri Baburov
Непонятный (1) всё задерживает сейчас. Остальное -- небольшие технические моменты, дольше объяснять, чем делать.
есть ссылка на доку по (1), где описывается и локализуется проблема?
источник

RB

Radion Bikmukhamedov in Natural Language Processing
если это имеет смысл отдавать наружу, конечно
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Как возможно разделить текст на русском языке без пунктуации на предложения? Есть ли в каких-то библиотеках типа Spacy такой функционал?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Дмитрий Тырин
Как возможно разделить текст на русском языке без пунктуации на предложения? Есть ли в каких-то библиотеках типа Spacy такой функционал?
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Спасибо, посмотрю
источник

NS

Nikolay Shmyrev in Natural Language Processing
Задача по-сути таже самая, что и NER, так что в spacy тоже можно её прикрутить.
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Shmyrev
Задача по-сути таже самая, что и NER, так что в spacy тоже можно её прикрутить.
Более того, английский Спейси даже умеет её решать (русский -- учится, вообще, они эту модель засунули внутрь dependency parser и поэтому её можно учить лишь совместно с ним), но вот я рекомендую отдельную модель для этого всё же делать, натренированную на предложениях без пунктуации.
источник

DL

Dmitry Legchikov in Natural Language Processing
Ребят, в современных реалиях применяются генеративные модели? Во многих нлп курсах им достаточно внимания уделяется, но кажется что логреги и сеточки все это вытеснили, как думаете?
источник