Size: a a a

Natural Language Processing

2020 January 12

NS

Nikolay Shmyrev in Natural Language Processing
Нет не планируется пока. Слишком сложная тема.
источник
2020 January 13

EK

Eldar Kochshegulov in Natural Language Processing
Yuri Baburov
эту можем в профильной группе обсудить, кстати.
а можно в эту группу попасть?
источник

YB

Yuri Baburov in Natural Language Processing
Eldar Kochshegulov
а можно в эту группу попасть?
есть скажем https://t.me/speech_recognition_ru
но мы там ещё не обсуждали этот вопрос...
источник
2020 January 14

K

Kir in Natural Language Processing
раз зашло про группы, не подскажите какую-нибудь группу про телеграмм ботов, для не очень продвинутых.
Ну или если тут кто-то может подсказать по паре вопросов, скажите, напишу в личку, чтобы не оффтопить.
источник

A

Aragaer in Natural Language Processing
@botoid кжись
источник

K

Kir in Natural Language Processing
спасибо!
источник

RI

Roman Inflianskas in Natural Language Processing
Всем привет!

Есть поэтический корпус русского языка: https://github.com/IlyaGusev/PoetryCorpus/
Он большой и я его использую, спасибо Илье Гусеву!

Однако в нём есть проблемы, одна из них: поскольку он был составлен из текстов с поэтических сайтов, куда (очевидно) часто тексты попадали путём OCR (причём не самого умного, по-видимому), встречаются слова с гомоглифами, к примеру: Bздымали (в нижнем регистре: bздымали; источник: https://rupoem.ru/pasternak/segodnya-my-ispolnim.aspx).
Хочу эту проблему исправить (и законтрибьютить обратно, как в корпус, так и на сайты с "оригиналом"), причём по максимуму без участия человека и готовыми средствами.

На ум сразу пришли spellchecker-ы. Однако тут есть сразу несколько проблем:
1. Большая часть не учитывает контекст и может предложить несколько вариантов и самый популярный может оказаться неправильным.
2. В словаре может не быть слова, потому что в поэзии много высокой лексики, не используемой в жизни.
3. В слове может быть очень много неправильных букв. Например: "aвгуcma" (3 латинских символа).

Эта задача уже решалась фирмами типа ABBYY, но вот есть ли свободные решения для этого? Желательно — либа Python, хотя standalone CLI программа, запускающаяся на современном GNU/Linux, тоже подойдёт. Мой быстрый гуглёж не дал результатов, возможно, я плохо искал.
Есть ли у кого на примете решения для такой задачи?
источник

RI

Roman Inflianskas in Natural Language Processing
Нашёл https://github.com/KBNLresearch/ochre
Не пробовал, но похоже на то, что нужно. Однако эта библиотека требует параллельного корпуса "результат OCR"-"корректный текст". Есть ли такой свободный корпус для русского языка (по запросу "OCR корпус русского языка" ничего подходящего нет)?
источник

A

Alex in Natural Language Processing
Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен:  Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.
источник

D(

David (ddale) Dale in Natural Language Processing
Alex
Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен:  Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.
Для каждого тега можно выучить свою собственную модель (например, логистическую регрессию поверх tf-idf); в ответе возвращать все теги, предсказанная вероятность которых больше порога (скажем, 50%).
источник

D

Dmitry in Natural Language Processing
Можно взять просто классификатор и получать несколько меток и их вероятность
источник

DK

Denis Kirjanov in Natural Language Processing
звучит как классическая multi-label classification
источник

vr

viktoria rein in Natural Language Processing
если классифицировать с помощью нейросети какой-то, то просто допустим последний слой сделать из нейронов по числу классов и каждому давать вероятность
источник

PD

Polina Dovnar in Natural Language Processing
Alex
Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен:  Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.
поищите multiclass multilabel classification, например, вот здесь линейные модели рассматриваются, здесь - нейросетевые
источник

A

Alex in Natural Language Processing
David (ddale) Dale
Для каждого тега можно выучить свою собственную модель (например, логистическую регрессию поверх tf-idf); в ответе возвращать все теги, предсказанная вероятность которых больше порога (скажем, 50%).
Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.
источник

D(

David (ddale) Dale in Natural Language Processing
Alex
Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.
Тогда да, лучше нейронку с общим входом и множеством независимых выходов (т.е. на последнем слое активация не softmax, а простой sigmoid).
источник

A

Alex in Natural Language Processing
Polina Dovnar
поищите multiclass multilabel classification, например, вот здесь линейные модели рассматриваются, здесь - нейросетевые
🙏 благодарю. Думаю, здесь и найду свой путь.

Спасибо всем большое за ответы - изучу поподробнее.
источник

M

Mairna in Natural Language Processing
Alex
Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.
лог регрессия в sklearn тоже позволяет делать на выходе one-versus-all или как-то так.
то есть для каждого класса выдает вероятность от 0 до 1.
источник

M

Mairna in Natural Language Processing
Alex
Спасибо за ответ. Только тегов может по итогу оказаться до 100 штук, а учитывая, что потом это надо будет прикрутить к сайту, мне кажется что совокупность моделей получится тяжеловатой.
а в разметке тоже некоторые примеры имеют несколько тегов?
источник

D(

David (ddale) Dale in Natural Language Processing
Mairna
лог регрессия в sklearn тоже позволяет делать на выходе one-versus-all или как-то так.
то есть для каждого класса выдает вероятность от 0 до 1.
Это по факту будет 100 регрессий (100 векторов коэффициентов) в одной обёртке.
источник