Size: a a a

Natural Language Processing

2020 September 03

Oℕ

Oleg ℕizhnik in Natural Language Processing
или это ссылка на источники?
источник

NV

Nikita Vilunov in Natural Language Processing
Oleg ℕizhnik
или это ссылка на источники?
pymorphy внутри себя использует OpenCorpora (http://opencorpora.org/dict.php) – можно попробовать самостоятельно написать обёртку вокруг него
источник

Oℕ

Oleg ℕizhnik in Natural Language Processing
спасибо
источник

M

Mishanya in Natural Language Processing
Roman
А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?
Корпус РуБерта - вики + новости, мультиязычного - вики. Встречаемость иностранных слов и их характер оттуда. Наверное, чаще всего это названия компаний. Если это смайлы, то берите conversational RuBERT, там обучающая выборка полностью на неформальной лексике типа пикабу, d3, и т.д. Там, вполне вероятно, будут нестандартные смайлы. А так, если что-то специфичное совсем в лексике, я бы начинал с простого: tf-idf -> fasttext -> ulmfit
источник

M

Mike in Natural Language Processing
viktor
спс
а случаем у вас нет этого файла?
а то сходу не нашел где скачать их бд
они пользуются OpenStreetMap
источник

M

Mike in Natural Language Processing
https://openmaptiles.org/languages/ru/#15.47/48.856533/2.347108
например, как это выглядит на карте. можно переключать «Alternative names»
источник

D

Dmitry in Natural Language Processing
Всем привет
Облазил наверно весь интернет и толком ничего не нашел
Где можно почитать про алгоритмы и методы по составлению лексико-синтаксических шаблонов (правила для извлечения именованных сущностей)?
Хотелось бы почитать про устоявшиеся алгоритмы и методы, а не как обычно, улучаю правило, если вижу новую ситуацию.
источник

ТС

Тимофей Смирнов... in Natural Language Processing
Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели  ?
источник

CT

Cookie Thief in Natural Language Processing
Тимофей Смирнов
Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели  ?
back translation вроде вполне работает
источник

ТС

Тимофей Смирнов... in Natural Language Processing
Cookie Thief
back translation вроде вполне работает
Спасибо, буду изучать!
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Тимофей Смирнов
Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели  ?
источник

AK

Angelina Kudriavtcev... in Natural Language Processing
Тимофей Смирнов
Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели  ?
Вот здесь неплохо систематизировано
https://amitness.com/2020/05/data-augmentation-for-nlp/
источник

IR

Ilkin Ramazanov in Natural Language Processing
Переслано от Ilkin Ramazanov
Ребят всем привет. Тут есть те кто публиковал статьи на хабре?
источник

N

Natalia in Natural Language Processing
Добрый вечер! У меня такой вопрос: кто-нибудь может посоветовать что-нибудь хорошее на тему исправления ошибок OCR? Особенно круто было бы увидеть какие-то реальные примеры (репозитории или тьюториалы). Пока как-то идеи в целом понятны, но не очень понятно, как именно двигаться к решению задачи.
источник

KS

Konstantin Smith in Natural Language Processing
Oleg ℕizhnik
Здравствуйте, а есть где-то готовый словарь для склонения имён собственных (городов и стран) на русском, или какая-то библиотека на JVM
Для склонения чего угодно (на русском) для Java есть Pullenti (блок морфологии)
источник

э

эдуард in Natural Language Processing
Natalia
Добрый вечер! У меня такой вопрос: кто-нибудь может посоветовать что-нибудь хорошее на тему исправления ошибок OCR? Особенно круто было бы увидеть какие-то реальные примеры (репозитории или тьюториалы). Пока как-то идеи в целом понятны, но не очень понятно, как именно двигаться к решению задачи.
источник

N

Natalia in Natural Language Processing
спасибо! но вопрос, конечно, в том, насколько эта штука учитывает контекст
источник

э

эдуард in Natural Language Processing
Natalia
спасибо! но вопрос, конечно, в том, насколько эта штука учитывает контекст
а, ну тут только опечатки)
источник

R

Roman in Natural Language Processing
Ilya Kazakov
Берёшь реализацию берта мультилингвального из официальной репы или какого-нибудь ruBert диппавлов. Читаешь внимательно инструкцию, как обучить language model на своём корпусе в их документации. Я не тюнил language model. Может быть, тут кто-то подскажет, насколько имеет смысл тюнить... Но если честно, оно тебе точно нужно? Ты уже понял, что готовые берты с их токенизаторами не знают про твои смайлы?
Понял, спасибо. Попробую, конечно, методы попроще, но стало интересно, как вообще провернуть такой файнтюн)
источник
2020 September 04

D

Dmitry in Natural Language Processing
Oleg ℕizhnik
спасибо, даже джавовые клоны уже посмотрел
очень нужно что-то что можно безболезненно использовать в JVM процессе
Юзаю jmorphy2 )
источник