Телеграмм чат группы natural_language

Привет, а кто нибудь знать хорошие тулы для разбиения роу текста (после asr) на фразы/предложения? И чтоб модельки не на википедии, а на чем то более близком к разговорной речи были натренированы?

источник

16:33пожаловаться #5

Alex Orgish in Natural Language Processing

Можно свою модель обучить по аналогии:
https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/nlp/punctuation_and_capitalization.html

источник

17:50пожаловаться #6

SМ

SancheZz Мов in Natural Language Processing

источник

17:53пожаловаться #7

Nikolay in Natural Language Processing

шикарно, спасибо. для английского языка прям из коробки отлично работает

источник

18:58пожаловаться #8

2021 May 21

Toemik Mnemonic in Natural Language Processing

Привет. Есть задача классификации вакансий к 5 классам . Что бы вы выбрали и почему: ливенштейн, суммарное косинусное расстояние между запросом и контрольными токенами каждого класса или что то ещё ?

источник

12:56пожаловаться #9

Roman Samarev in Natural Language Processing

Ключевые слова - самый надёжный вариант. Проблема описания вакансий в том, что они, помимо требований к сотруднику, содержат описание “плюшек” и могут содержать общее описание деятельности компании. Например “требуется разнорабочий …, будет предоставлен автобус с водителем, бесплатный стоматолог…”. При неаккуратной обработке без фильтрации разделов, водитель автобуса и стоматолог перейдут в требования к вакансии… То же с непрофильными должностями - “Компании по производству печенья требуется программист….”….

источник

14:01пожаловаться #10

Toemik Mnemonic in Natural Language Processing

понял , спасибо

источник

14:24пожаловаться #11

Sergey Karpov in Natural Language Processing

мне нужно в пространстве коротких текстов склеить выражения, которые обозначают одно и то же, но выражены или глаголом, или существительным. Например, "написать сообщение" и "написание сообщения".
Я попробовал стемминг и пробовал составить правила поверх pymorphy-тегов. Пробовал эмбединги, но мне не надо склеивать синонимы, а только по частям речи склеивать. Кто-то может подскажет какой-нибудь подход?

источник

15:46пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

А что значит склеить?

источник

15:47пожаловаться #13

Sergey Karpov in Natural Language Processing

отнести в один кластер

источник

15:47пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

Ну возьмите сберт)

источник

15:47пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Заэмбедьте, по вектору фразы найдите ближайшее

источник

15:47пожаловаться #16

SМ

SancheZz Мов in Natural Language Processing

Склейте

источник

15:48пожаловаться #17

David Dale in Natural Language Processing

Можно воспользоваться готовым тезаурусом, где есть частеречные синонимы, типа ruwordnet (для него есть обёртка https://github.com/avidale/python-ruwordnet)
Например, для "написать" (https://www.ruwordnet.ru/ru/search/написать) синонимы такие: ДОПИСЫВАНИЕ, НАПИСАНИЕ, ПИСАНИЕ, ПИСЬМО

источник

15:50пожаловаться #18

SМ

SancheZz Мов in Natural Language Processing

Как понимаю парню нужны парафразы

источник

15:51пожаловаться #19

SМ

SancheZz Мов in Natural Language Processing

Не надо склеивать синонимы(с)

источник

15:51пожаловаться #20