Size: a a a

Natural Language Processing

2021 May 20

AM

Aleksandr Mester in Natural Language Processing
Этот тоже видел, здесь нету нормально численной переменной, кроме целевой. Но все равно спасибо.
источник

YN

Yulia Nazarova in Natural Language Processing
https://www.kaggle.com/luthfim/steam-reviews-dataset
Что-нибудь такое, может?
источник

AM

Aleksandr Mester in Natural Language Processing
возможно, спасибо
источник

OS

Oleg Serikov in Natural Language Processing
а в наташе планируется развитие поддержки дат/времени?
источник

N

Nikolay in Natural Language Processing
Привет, а кто нибудь знать хорошие тулы для разбиения роу текста (после asr) на фразы/предложения? И чтоб модельки не на википедии, а на чем то более близком к разговорной речи были натренированы?
источник

AO

Alex Orgish in Natural Language Processing
Можно свою модель обучить по аналогии:
https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/nlp/punctuation_and_capitalization.html
источник

SancheZz Мов in Natural Language Processing
+
источник

N

Nikolay in Natural Language Processing
шикарно, спасибо. для английского языка прям из коробки отлично работает
источник
2021 May 21

TM

Toemik Mnemonic in Natural Language Processing
Привет. Есть задача классификации вакансий к 5 классам . Что бы вы выбрали и почему: ливенштейн, суммарное косинусное расстояние между запросом и контрольными токенами каждого класса или что то ещё ?
источник

RS

Roman Samarev in Natural Language Processing
Ключевые слова - самый надёжный вариант. Проблема описания вакансий в том, что они, помимо требований к сотруднику, содержат описание “плюшек” и могут содержать общее описание деятельности компании. Например “требуется разнорабочий …, будет предоставлен автобус с водителем, бесплатный стоматолог…”. При неаккуратной обработке без фильтрации разделов, водитель автобуса и стоматолог перейдут в требования к вакансии… То же с непрофильными должностями - “Компании по производству печенья требуется программист….”….
источник

TM

Toemik Mnemonic in Natural Language Processing
понял , спасибо
источник

SK

Sergey Karpov in Natural Language Processing
мне нужно в пространстве коротких текстов склеить выражения, которые обозначают одно и то же, но выражены или глаголом, или существительным. Например, "написать сообщение" и "написание сообщения".
Я попробовал стемминг и пробовал составить правила поверх pymorphy-тегов. Пробовал эмбединги, но мне не надо склеивать синонимы, а только по частям речи склеивать. Кто-то может подскажет какой-нибудь подход?
источник

SancheZz Мов in Natural Language Processing
А что значит склеить?
источник

SK

Sergey Karpov in Natural Language Processing
отнести в один кластер
источник

SancheZz Мов in Natural Language Processing
Ну возьмите сберт)
источник

SancheZz Мов in Natural Language Processing
Заэмбедьте, по вектору фразы найдите ближайшее
источник

SancheZz Мов in Natural Language Processing
Склейте
источник

DD

David Dale in Natural Language Processing
Можно воспользоваться готовым тезаурусом, где есть частеречные синонимы, типа ruwordnet (для него есть обёртка https://github.com/avidale/python-ruwordnet)
Например, для "написать" (https://www.ruwordnet.ru/ru/search/написать) синонимы такие: ДОПИСЫВАНИЕ, НАПИСАНИЕ, ПИСАНИЕ, ПИСЬМО
источник

SancheZz Мов in Natural Language Processing
Как понимаю парню нужны парафразы
источник

SancheZz Мов in Natural Language Processing
Не надо склеивать синонимы(с)
источник