Телеграмм чат группы natural_language

раз зашло про группы, не подскажите какую-нибудь группу про телеграмм ботов, для не очень продвинутых.
Ну или если тут кто-то может подсказать по паре вопросов, скажите, напишу в личку, чтобы не оффтопить.

источник

01:31пожаловаться #4

A

Aragaer in Natural Language Processing

@botoid кжись

источник

01:35пожаловаться #5

K

Kir in Natural Language Processing

спасибо!

источник

01:43пожаловаться #6

RI

Roman Inflianskas in Natural Language Processing

Всем привет!

Есть поэтический корпус русского языка: https://github.com/IlyaGusev/PoetryCorpus/
Он большой и я его использую, спасибо Илье Гусеву!

Однако в нём есть проблемы, одна из них: поскольку он был составлен из текстов с поэтических сайтов, куда (очевидно) часто тексты попадали путём OCR (причём не самого умного, по-видимому), встречаются слова с гомоглифами, к примеру: Bздымали (в нижнем регистре: bздымали; источник: https://rupoem.ru/pasternak/segodnya-my-ispolnim.aspx).
Хочу эту проблему исправить (и законтрибьютить обратно, как в корпус, так и на сайты с "оригиналом"), причём по максимуму без участия человека и готовыми средствами.

На ум сразу пришли spellchecker-ы. Однако тут есть сразу несколько проблем:
1. Большая часть не учитывает контекст и может предложить несколько вариантов и самый популярный может оказаться неправильным.
2. В словаре может не быть слова, потому что в поэзии много высокой лексики, не используемой в жизни.
3. В слове может быть очень много неправильных букв. Например: "aвгуcma" (3 латинских символа).

Эта задача уже решалась фирмами типа ABBYY, но вот есть ли свободные решения для этого? Желательно — либа Python, хотя standalone CLI программа, запускающаяся на современном GNU/Linux, тоже подойдёт. Мой быстрый гуглёж не дал результатов, возможно, я плохо искал.
Есть ли у кого на примете решения для такой задачи?

GitHub

IlyaGusev/PoetryCorpus

Поэтический корпус русского языка. Contribute to IlyaGusev/PoetryCorpus development by creating an account on GitHub.

источник

07:41пожаловаться #7

RI

Roman Inflianskas in Natural Language Processing

Нашёл https://github.com/KBNLresearch/ochre
Не пробовал, но похоже на то, что нужно. Однако эта библиотека требует параллельного корпуса "результат OCR"-"корректный текст". Есть ли такой свободный корпус для русского языка (по запросу "OCR корпус русского языка" ничего подходящего нет)?

GitHub

KBNLresearch/ochre

Toolbox for OCR post-correction. Contribute to KBNLresearch/ochre development by creating an account on GitHub.

источник

09:40пожаловаться #8

A

Alex in Natural Language Processing

Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен: Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.

источник

16:52пожаловаться #9

D(

David (ddale) Dale in Natural Language Processing

Alex

Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен: Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.

Для каждого тега можно выучить свою собственную модель (например, логистическую регрессию поверх tf-idf); в ответе возвращать все теги, предсказанная вероятность которых больше порога (скажем, 50%).

источник

16:53пожаловаться #10

D

Dmitry in Natural Language Processing

Можно взять просто классификатор и получать несколько меток и их вероятность

источник

16:55пожаловаться #11

DK

Denis Kirjanov in Natural Language Processing

звучит как классическая multi-label classification

источник

16:55пожаловаться #12

vr

viktoria rein in Natural Language Processing

если классифицировать с помощью нейросети какой-то, то просто допустим последний слой сделать из нейронов по числу классов и каждому давать вероятность

источник

16:56пожаловаться #13

PD

Polina Dovnar in Natural Language Processing

Alex

Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен: Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.

поищите multiclass multilabel classification, например, вот здесь линейные модели рассматриваются, здесь - нейросетевые

Medium

NLP Tutorial: MultiLabel Classification Problem using Linear Models

This article presents in details how to predict tags for posts from StackOverflow using Linear Model after carefully preprocessing our…

источник

16:56пожаловаться #14

A

Alex in Natural Language Processing

David (ddale) Dale

Для каждого тега можно выучить свою собственную модель (например, логистическую регрессию поверх tf-idf); в ответе возвращать все теги, предсказанная вероятность которых больше порога (скажем, 50%).

Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.

источник

17:04пожаловаться #15

D(

David (ddale) Dale in Natural Language Processing

Alex

Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.

Тогда да, лучше нейронку с общим входом и множеством независимых выходов (т.е. на последнем слое активация не softmax, а простой sigmoid).

источник

17:05пожаловаться #16

A

Alex in Natural Language Processing

Polina Dovnar

поищите multiclass multilabel classification, например, вот здесь линейные модели рассматриваются, здесь - нейросетевые

Medium

NLP Tutorial: MultiLabel Classification Problem using Linear Models

This article presents in details how to predict tags for posts from StackOverflow using Linear Model after carefully preprocessing our…

🙏 благодарю. Думаю, здесь и найду свой путь.

Спасибо всем большое за ответы - изучу поподробнее.

источник

17:06пожаловаться #17

M

Mairna in Natural Language Processing

Alex

Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.

лог регрессия в sklearn тоже позволяет делать на выходе one-versus-all или как-то так.
то есть для каждого класса выдает вероятность от 0 до 1.

источник

17:22пожаловаться #18

M

Mairna in Natural Language Processing

Alex

Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.

а в разметке тоже некоторые примеры имеют несколько тегов?

источник

17:23пожаловаться #19

D(

David (ddale) Dale in Natural Language Processing

Mairna

лог регрессия в sklearn тоже позволяет делать на выходе one-versus-all или как-то так.
то есть для каждого класса выдает вероятность от 0 до 1.

Это по факту будет 100 регрессий (100 векторов коэффициентов) в одной обёртке.

источник

17:24пожаловаться #20