Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2702 membersпожаловаться на группу

2021 May 03

Victor Maslov in Natural Language Processing

or ##nlp at Freenode IRC network

источник

09:25пожаловаться #1

НК

Николай Карпенко... in Natural Language Processing

В сентябре 2020 г., compass Pathways (nasdaq: CMPS) провела IPO и стала первой публичной компанией с продуктом на основе псилоцибина. Сотни миллионов людей, страдающих от клинической депрессии, получат альтернативу антидепрессантами.

Ни Natasha, ни Pullenti, ни DeepPavlov не видят организацию в этом абзаце. Ну и в целом полнота NER еще крайне нестабильна.

источник

14:38пожаловаться #2

Konstantin Smith in Natural Language Processing

Тут даже человек не увидит организацию! Compass - это что? Может, это вообще человек. Если нет ключевых слов или название не в каком-либо словаре организаций, то система не сможет найти, чудес не бывает. Можно, конечно, привязаться к IPO, но это всё ненадёжно и приведёт к избыточному шуму.

источник

14:44пожаловаться #3

Grigory Frantsuzov in Natural Language Processing

К nasdaq?

источник

15:06пожаловаться #4

НК

Николай Карпенко... in Natural Language Processing

copmass опечатка видимо Compass. опереться на "провела IPO и стала первой публичной компанией".

источник

15:18пожаловаться #5

НК

Николай Карпенко... in Natural Language Processing

Оказывается у антидепрессантов есть альтернатива. Она была всегда, но ее запрещали, игнорировали, стигматизировали. В этой статье я расскажу, почему недооценен псилоцибин (психоактивное вещество, содержащееся в галлюциногенных грибах) и проанализирую бизнес-модель первой публичной компании, которая занимается исследованием психоделиков Compass Pathways (тикер — CMPS, торгуется на nasdaq).

Здесь тоже не але

источник

15:20пожаловаться #6

Konstantin Smith in Natural Language Processing

Я как представитель rule-base скажу, что правило доработать несложно. Так развитие и идёт - встречаются нераспознаваемые случаи, которые учитываются.

источник

15:22пожаловаться #7

НК

Николай Карпенко... in Natural Language Processing

источник

23:02пожаловаться #8

НК

Николай Карпенко... in Natural Language Processing

На графике показано, если Natasha работает на всех ядрах - то скорость обработки низкая. Но как только ставишь export OPENBLAS_NUM_THREADS=2 и запускаешь 6 инстанций (примерно столько же ресурсов тратится), но скорость обработки в 3-4 раза повышается.

источник

23:03пожаловаться #9

НК

Николай Карпенко... in Natural Language Processing

Другими словами, лучше всегда ставить export OPENBLAS_NUM_THREADS=2 или 4 перед обработкой большого массива данных на Natasha и запускать несколько инстанций.

источник

23:06пожаловаться #10

2021 May 04

Nick Mikhailovsky in Natural Language Processing

Наверное, каждый, кто занимался генерацией текстов с помощью нейронных сетей, сталкивался с вырождением генерации - бесконечно повторяющимися последовательностями. На самом деле, это не единственная проблема текстов, сгенерированных нейросетями. Например, известно, что в них часто встречающиеся токены встречаются чаще, а редко встречающиеся - реже, чем в текстах людей. Илья Куликов на очередном найчно-техническом вебинаре НТР и Высшей ИТ-школы ТГУ во вторник, 4 мая в 17:00 МСК, расскажет о своем решении проблемы - Unlikelihood training.
Регистрация: https://us02web.zoom.us/webinar/register/1515989556145/WN_S3zCVfLSTdO-r9aBMlZpLg

Zoom Video

Welcome! You are invited to join a webinar: Обучение и декодирование с авторегрессионными нейронными языковыми моделями. After registering, you will receive a confirmation email about joining the webinar.

Спикер: Илья Куликов, Нью-Йоркский Университет, Нью-Йорк, США

источник

01:00пожаловаться #11

Nick Mikhailovsky in Natural Language Processing

источник

01:00пожаловаться #12

Pavel Lebedev in Natural Language Processing

Доброе утро. Никто не сталкивался с задачей автоматического тегирования набора текстов? Как бы вы к ней подошли? топик моделинг? tf/idf? какой-то более специфичный keyword extraction? еще что-то?

источник

10:39пожаловаться #13

Anton A in Natural Language Processing

Смотря что за теги нужны

источник

16:17пожаловаться #14

Anton A in Natural Language Processing

Если по тематике то тематическое моделирование, да

источник

16:17пожаловаться #15

Anton in Natural Language Processing

Есть заранее известный список тэгов?

источник

19:18пожаловаться #16

S M in Natural Language Processing

Всем привет, пытаюсь дообучить русскоязычную Kaldi модельку из Vosk, на этапе формирования alignments, в скрипте align.sh в логи пишется ошибка "Neural net expects 'ivector' features with dimension 30 but you provided 0", нагуглил что ошибка возможно решается через ручную экстаркцию фичей и подачу его в переменной online-ivector-dir, казалось бы все ок, но процесс экстракции использует те самые alignments, вот собственно и проблема, подскажите пожалуйста, кто сталкивался, возможно я совсем не понимаю концепции сего действия, буду рад ответам

источник

20:07пожаловаться #17

Daria Samsonova in Natural Language Processing

вероятно здесь могут помочь
https://t.me/speech_recognition_ru

Распознавание речи

Распознавание, синтез речи и речевые технологии

источник

20:53пожаловаться #18

2021 May 05

S M in Natural Language Processing

Спасибо

источник

05:27пожаловаться #19

Aleksandr Mester in Natural Language Processing

Здравствуйте. Подскажите, пожалуйста, по чат-ботам. Знакомый обратился посоветоваться, сам в них не специализируюсь. Задача - чат-бот первого уровневой поддержки для магазина, есть датасет их истории диалогов с операторами, типа здравствуйте, есть ли в наличии товар? И ответ. Если я правильно о понимаю, такие задачи так или иначе решаются через интент-классификатор. Собственно вопросы: нет ли в открытом доступе готового классификатора интентов для тако задачи на русском? Выглядит как типовая, кажется , что навряд ли каждый магазин пишет свою версию. Второй вопрос - как можно использовать для пользы дела датасет диалогов?

источник

11:59пожаловаться #20