Телеграмм чат группы natural_language

А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?

Корпус РуБерта - вики + новости, мультиязычного - вики. Встречаемость иностранных слов и их характер оттуда. Наверное, чаще всего это названия компаний. Если это смайлы, то берите conversational RuBERT, там обучающая выборка полностью на неформальной лексике типа пикабу, d3, и т.д. Там, вполне вероятно, будут нестандартные смайлы. А так, если что-то специфичное совсем в лексике, я бы начинал с простого: tf-idf -> fasttext -> ulmfit

источник

17:33пожаловаться #4

M

Mike in Natural Language Processing

viktor

спс
а случаем у вас нет этого файла?
а то сходу не нашел где скачать их бд

они пользуются OpenStreetMap

источник

17:44пожаловаться #5

M

Mike in Natural Language Processing

https://openmaptiles.org/languages/ru/#15.47/48.856533/2.347108
например, как это выглядит на карте. можно переключать «Alternative names»

OpenMapTiles

OpenStreetMap in Russian

Vector tiles from OpenStreetMap and OpenData to create world maps for web and mobile.

источник

17:49пожаловаться #6

D

Dmitry in Natural Language Processing

Всем привет
Облазил наверно весь интернет и толком ничего не нашел
Где можно почитать про алгоритмы и методы по составлению лексико-синтаксических шаблонов (правила для извлечения именованных сущностей)?
Хотелось бы почитать про устоявшиеся алгоритмы и методы, а не как обычно, улучаю правило, если вижу новую ситуацию.

источник

18:53пожаловаться #7

ТС

Тимофей Смирнов... in Natural Language Processing

Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели ?

источник

19:05пожаловаться #8

CT

Cookie Thief in Natural Language Processing

Тимофей Смирнов

Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели ?

back translation вроде вполне работает

источник

19:06пожаловаться #9

ТС

Тимофей Смирнов... in Natural Language Processing

Cookie Thief

back translation вроде вполне работает

Спасибо, буду изучать!

источник

19:07пожаловаться #10

RB

Radion Bikmukhamedov in Natural Language Processing

Тимофей Смирнов

Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели ?

https://github.com/makcedward/nlpaug

GitHub

makcedward/nlpaug

Data augmentation for NLP . Contribute to makcedward/nlpaug development by creating an account on GitHub.

источник

19:09пожаловаться #11

AK

Angelina Kudriavtcev... in Natural Language Processing

Тимофей Смирнов

Всем привет!
Занимаюсь классификацией текста. Кто-нибудь знает что-то про аугментацию текстовых данных ? Знаю, что можно переставлять слова в предложении(для архитектур в которых порядок имеет значение) или добавлять шум к эмбедингам. А работает ли что-то по типу добавления рандомных не значащих слов для устойчивости/усиления модели ?

Вот здесь неплохо систематизировано
https://amitness.com/2020/05/data-augmentation-for-nlp/

Amit Chaudhary

A Visual Survey of Data Augmentation in NLP

An extensive overview of text data augmentation techniques for Natural Language Processing

источник

19:13пожаловаться #12

IR

Ilkin Ramazanov in Natural Language Processing

Переслано от Ilkin Ramazanov

Ребят всем привет. Тут есть те кто публиковал статьи на хабре?

источник

20:00пожаловаться #13

N

Natalia in Natural Language Processing

Добрый вечер! У меня такой вопрос: кто-нибудь может посоветовать что-нибудь хорошее на тему исправления ошибок OCR? Особенно круто было бы увидеть какие-то реальные примеры (репозитории или тьюториалы). Пока как-то идеи в целом понятны, но не очень понятно, как именно двигаться к решению задачи.

источник

20:38пожаловаться #14

KS

Konstantin Smith in Natural Language Processing

Oleg ℕizhnik

Здравствуйте, а есть где-то готовый словарь для склонения имён собственных (городов и стран) на русском, или какая-то библиотека на JVM

Для склонения чего угодно (на русском) для Java есть Pullenti (блок морфологии)

источник

20:57пожаловаться #15

э

эдуард in Natural Language Processing

Natalia

Добрый вечер! У меня такой вопрос: кто-нибудь может посоветовать что-нибудь хорошее на тему исправления ошибок OCR? Особенно круто было бы увидеть какие-то реальные примеры (репозитории или тьюториалы). Пока как-то идеи в целом понятны, но не очень понятно, как именно двигаться к решению задачи.

пробовали?
https://github.com/oriontvv/pyaspeller

источник

20:59пожаловаться #16

N

Natalia in Natural Language Processing

спасибо! но вопрос, конечно, в том, насколько эта штука учитывает контекст

источник

21:06пожаловаться #17

э

эдуард in Natural Language Processing

Natalia

спасибо! но вопрос, конечно, в том, насколько эта штука учитывает контекст

а, ну тут только опечатки)

источник

21:10пожаловаться #18

R

Roman in Natural Language Processing

Ilya Kazakov

Берёшь реализацию берта мультилингвального из официальной репы или какого-нибудь ruBert диппавлов. Читаешь внимательно инструкцию, как обучить language model на своём корпусе в их документации. Я не тюнил language model. Может быть, тут кто-то подскажет, насколько имеет смысл тюнить... Но если честно, оно тебе точно нужно? Ты уже понял, что готовые берты с их токенизаторами не знают про твои смайлы?

Понял, спасибо. Попробую, конечно, методы попроще, но стало интересно, как вообще провернуть такой файнтюн)

источник

22:56пожаловаться #19

2020 September 04

D

Dmitry in Natural Language Processing

Oleg ℕizhnik

спасибо, даже джавовые клоны уже посмотрел
очень нужно что-то что можно безболезненно использовать в JVM процессе

Юзаю jmorphy2 )

источник

02:00пожаловаться #20