Size: a a a

Natural Language Processing

2021 May 03

VM

Victor Maslov in Natural Language Processing
or ##nlp at Freenode IRC network
источник

НК

Николай Карпенко... in Natural Language Processing
В сентябре 2020 г., compass Pathways (nasdaq: CMPS) провела IPO и стала первой публичной компанией с продуктом на основе псилоцибина. Сотни миллионов людей, страдающих от клинической депрессии, получат альтернативу антидепрессантами.

Ни Natasha, ни Pullenti, ни DeepPavlov не видят организацию в этом абзаце. Ну и в целом полнота NER еще крайне нестабильна.
источник

KS

Konstantin Smith in Natural Language Processing
Тут даже человек не увидит организацию! Compass - это что? Может, это вообще человек. Если нет ключевых слов или название не в каком-либо словаре организаций, то система не сможет найти, чудес не бывает. Можно, конечно, привязаться к IPO, но это всё ненадёжно и приведёт к избыточному шуму.
источник

GF

Grigory Frantsuzov in Natural Language Processing
К  nasdaq?
источник

НК

Николай Карпенко... in Natural Language Processing
copmass опечатка видимо Compass. опереться на  "провела IPO и стала первой публичной компанией".
источник

НК

Николай Карпенко... in Natural Language Processing
Оказывается у антидепрессантов есть альтернатива. Она была всегда, но ее запрещали, игнорировали, стигматизировали. В этой статье я расскажу, почему недооценен псилоцибин (психоактивное вещество, содержащееся в галлюциногенных грибах) и проанализирую бизнес-модель первой публичной компании, которая занимается исследованием психоделиков Compass Pathways (тикер — CMPS, торгуется на nasdaq).



Здесь тоже не але
источник

KS

Konstantin Smith in Natural Language Processing
Я как представитель rule-base скажу, что правило доработать несложно. Так развитие и идёт - встречаются нераспознаваемые случаи, которые учитываются.
источник

НК

Николай Карпенко... in Natural Language Processing
источник

НК

Николай Карпенко... in Natural Language Processing
На графике показано, если Natasha работает на всех ядрах - то скорость обработки низкая. Но как только ставишь export OPENBLAS_NUM_THREADS=2 и запускаешь 6 инстанций (примерно столько же ресурсов тратится), но скорость обработки в 3-4 раза повышается.
источник

НК

Николай Карпенко... in Natural Language Processing
Другими словами, лучше всегда ставить export OPENBLAS_NUM_THREADS=2 или 4 перед обработкой большого массива данных на Natasha и запускать несколько инстанций.
источник
2021 May 04

NM

Nick Mikhailovsky in Natural Language Processing
Наверное, каждый, кто занимался генерацией текстов с помощью нейронных сетей, сталкивался с вырождением генерации - бесконечно повторяющимися последовательностями. На самом деле, это не единственная проблема текстов, сгенерированных нейросетями. Например, известно, что в них часто встречающиеся токены встречаются чаще, а редко встречающиеся - реже, чем в текстах людей. Илья Куликов на очередном найчно-техническом вебинаре НТР и Высшей ИТ-школы ТГУ во вторник, 4 мая в 17:00 МСК, расскажет о своем решении проблемы - Unlikelihood training.
Регистрация: https://us02web.zoom.us/webinar/register/1515989556145/WN_S3zCVfLSTdO-r9aBMlZpLg
источник

NM

Nick Mikhailovsky in Natural Language Processing
источник

PL

Pavel Lebedev in Natural Language Processing
Доброе утро. Никто не сталкивался с задачей автоматического тегирования набора текстов? Как бы вы к ней подошли? топик моделинг? tf/idf? какой-то более специфичный keyword extraction? еще что-то?
источник

AA

Anton A in Natural Language Processing
Смотря что за теги нужны
источник

AA

Anton A in Natural Language Processing
Если по тематике то тематическое моделирование, да
источник

A

Anton in Natural Language Processing
Есть заранее известный список тэгов?
источник

SM

S M in Natural Language Processing
Всем привет, пытаюсь дообучить русскоязычную Kaldi модельку из Vosk, на этапе формирования alignments, в скрипте align.sh в логи пишется ошибка "Neural net expects 'ivector' features with dimension 30 but you provided 0", нагуглил что ошибка возможно решается через ручную экстаркцию фичей и подачу его в переменной online-ivector-dir, казалось бы все ок, но процесс экстракции использует те самые alignments, вот собственно и проблема, подскажите пожалуйста, кто сталкивался, возможно я совсем не понимаю концепции сего действия, буду рад ответам
источник

DS

Daria Samsonova in Natural Language Processing
вероятно здесь могут помочь
https://t.me/speech_recognition_ru
источник
2021 May 05

SM

S M in Natural Language Processing
Спасибо
источник

AM

Aleksandr Mester in Natural Language Processing
Здравствуйте. Подскажите, пожалуйста, по чат-ботам. Знакомый обратился посоветоваться, сам в них не специализируюсь. Задача - чат-бот первого уровневой поддержки для магазина, есть датасет их истории диалогов с операторами, типа здравствуйте, есть ли в наличии товар? И ответ. Если я правильно о понимаю, такие задачи так или иначе решаются через интент-классификатор. Собственно вопросы: нет ли в открытом доступе готового классификатора интентов для тако задачи на русском? Выглядит как типовая, кажется , что навряд ли каждый магазин пишет свою версию. Второй вопрос - как можно использовать для пользы дела датасет диалогов?
источник