Телеграмм чат группы natural_language_processing страница 1109

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2571 membersпожаловаться на группу

2021 March 16

AK

Alexandr Kuklavodovi... in Natural Language Processing

Посмотрите vosk. Там же прям докер можно взять, добавить предобученную модель с их же сайта и все сразу полетит. Vosk основан на kaldi, ну или как-то так

ага, тут с оценкой наиболее понятно, тут больше вопрос с оценкой дообучения воска, сколько в среднем занимет у бывалых и среднее время для решения задач связанных с выделением из текста показателей, а еще интересно, кто сталкивался с созданием своих решений, сколько это человеческих ресурсов у них занимало)

источник

16:09пожаловаться #1

N

Nikolay in Natural Language Processing

Alexandr Kuklavodovich

ага, тут с оценкой наиболее понятно, тут больше вопрос с оценкой дообучения воска, сколько в среднем занимет у бывалых и среднее время для решения задач связанных с выделением из текста показателей, а еще интересно, кто сталкивался с созданием своих решений, сколько это человеческих ресурсов у них занимало)

https://alphacephei.com/vosk/adaptation - примерно наверное отвечает на ваш вопрос "как". вопрос "сколько" слишком спекулятивный:)

VOSK Offline Speech Recognition API

Model adaptation for VOSK

Accurate speech recognition for Android, iOS, Raspberry Pi and servers with Python, Java, C#, Swift and Node.

источник

16:12пожаловаться #2

AK

Alexandr Kuklavodovi... in Natural Language Processing

https://alphacephei.com/vosk/adaptation - примерно наверное отвечает на ваш вопрос "как". вопрос "сколько" слишком спекулятивный:)

VOSK Offline Speech Recognition API

Model adaptation for VOSK

Accurate speech recognition for Android, iOS, Raspberry Pi and servers with Python, Java, C#, Swift and Node.

ну на счет спекуляции - наверно, но я не к интегратору обращаюсь 🙃, тут наверно больше интересен эмпирический путь, тех, кто работал с подобными задачами, lead time аналогичных проектов/задач

источник

16:18пожаловаться #3

S

Serezha in Natural Language Processing

Подскажите, есть ли готовый датасет "условной мировой таксономии", где можно по слову определить его классы. Например в духе "турник" -> "спортивный снаряд" -> "спорт"

источник

17:50пожаловаться #4

S

Serezha in Natural Language Processing

Или в какую сторону копать чтобы получить такой базовый классификатор

источник

17:51пожаловаться #5

AS

Alex Surname in Natural Language Processing

по-моему вам просто нужно получить гипероним от слова

источник

17:52пожаловаться #6

DD

David Dale in Natural Language Processing

Подскажите, есть ли готовый датасет "условной мировой таксономии", где можно по слову определить его классы. Например в духе "турник" -> "спортивный снаряд" -> "спорт"

wordnet (http://wordnetweb.princeton.edu/perl/webwn) для английского, ruwordnet (https://www.ruwordnet.ru/ru) для русского

источник

17:53пожаловаться #7

S

Serezha in Natural Language Processing

Спасибо, словарики полезные, значит надо работать с гиперонимами. А вычислить через них разные неоднозначности и нюансы получится? Например разницу понятий "клевый лук" != "лук шалот".

источник

18:12пожаловаться #8

S

Serezha in Natural Language Processing

чтобы понять что первое - про фешн, а второе - кулинария или ботаника

источник

18:13пожаловаться #9

AS

Alex Surname in Natural Language Processing

ворднет по одному слову только принимает насколько я знаю

источник

18:14пожаловаться #10

AS

Alex Surname in Natural Language Processing

возможно вам поможет word2vec

источник

18:15пожаловаться #11

DD

David Dale in Natural Language Processing

Спасибо, словарики полезные, значит надо работать с гиперонимами. А вычислить через них разные неоднозначности и нюансы получится? Например разницу понятий "клевый лук" != "лук шалот".

Для этого нужно решить задачу word sense disambiguation, для этого есть какое-то количество методов, погуглите.
Например, можно классифицировать смыслы, основываясь на контекстных эмбеддингах из берта.
А когда нужный смысл выбран, идти в wordnet.

источник

18:25пожаловаться #12

D

Danila Milovanov in Natural Language Processing

Ребят, есть вопрос по Tensorflow USE(multilingual), нормально ли эта модель работает с текстами например "разработка программного обеспечения с помощью языка Python", то есть будет ли модель учитывать что помимо основного содержания(русского текста) присутствует слово на другом языке(Python).

источник

18:33пожаловаться #13

D

Danila Milovanov in Natural Language Processing

Коротко о моём решении задачи:На вход идёт текст, по этому очищенному тексту(от англ. символов,пунктуации,символов) выдаёт наиболее похожие другие текста(которые уже векторизованы), и среди тех текстов, которые выдало, нужно найти документы которые похожи на входной текст учитывая английские термины и слова(грубо говоря отфильтровать работы). Пока что я в процессе решения второго пункта(фильтрации работ), возможно кто-то знает как лучше решить подобную задачу? Пока из идей: С помощью нечёткого поиска пройтись по работам используя очищенный от русских символов входной текст.

источник

18:43пожаловаться #14

D

Danila Milovanov in Natural Language Processing

Не прошу решения, просто хотелось бы узнать адекватно ли делать нечёткий поиск, или лучше сделать эмбеддинг текстов где только английский текст от исходного будет либо текстов не удаляя английский текст

источник

18:44пожаловаться #15

R

Renat in Natural Language Processing

Danila Milovanov

Ребят, есть вопрос по Tensorflow USE(multilingual), нормально ли эта модель работает с текстами например "разработка программного обеспечения с помощью языка Python", то есть будет ли модель учитывать что помимо основного содержания(русского текста) присутствует слово на другом языке(Python).

На коротких текстах он адекватно воспринимал микс, когда я пробовал
И для известных слов вроде Python или Adrenaline Rush у него представления как раз и будут похожи у английских и «транслитерированных вариантов» вроде

источник

18:46пожаловаться #16

D

Danila Milovanov in Natural Language Processing

Ну у меня в основном средние текста(200-300 токенов), и как-то у меня не получилось адекватного результата.

источник

18:48пожаловаться #17

R

Renat in Natural Language Processing

У него в токенизации зашита обрезка по скольки-то токенам
Возможно, у тебя длина текста больше

https://github.com/tensorflow/hub/issues/244

Max number of tokens considered by Universal Sentence Encoder Large 3 · Issue #244 · tensorflow/hub

This is not a question about tf_hub but about the Universal Sentence Encoder. If this is not the right place, let me know the appropriate forum to post this. I noticed that the transformer model (U...

источник

18:50пожаловаться #18

CT

Cookie Thief in Natural Language Processing

Danila Milovanov

Ну у меня в основном средние текста(200-300 токенов), и как-то у меня не получилось адекватного результата.

У большого юса ограничение в 100 токенов, у маленького в 256

источник

18:52пожаловаться #19

D

Danila Milovanov in Natural Language Processing

У меня данная модель https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3 , берёт 500 токенов если не ошибаюсь

источник

18:53пожаловаться #20