Size: a a a

Natural Language Processing

2021 March 16

AK

Alexandr Kuklavodovi... in Natural Language Processing
Nikolay
Посмотрите vosk. Там же прям докер можно взять, добавить предобученную модель с их же сайта и все сразу полетит. Vosk основан на kaldi, ну или как-то так
ага, тут с оценкой наиболее понятно, тут больше вопрос с оценкой дообучения воска, сколько в среднем занимет у бывалых и среднее время для решения задач связанных с выделением из текста показателей, а еще интересно, кто сталкивался с созданием своих решений, сколько это человеческих ресурсов у них занимало)
источник

N

Nikolay in Natural Language Processing
Alexandr Kuklavodovich
ага, тут с оценкой наиболее понятно, тут больше вопрос с оценкой дообучения воска, сколько в среднем занимет у бывалых и среднее время для решения задач связанных с выделением из текста показателей, а еще интересно, кто сталкивался с созданием своих решений, сколько это человеческих ресурсов у них занимало)
https://alphacephei.com/vosk/adaptation   - примерно наверное отвечает на ваш вопрос "как". вопрос "сколько" слишком спекулятивный:)
источник

AK

Alexandr Kuklavodovi... in Natural Language Processing
Nikolay
https://alphacephei.com/vosk/adaptation   - примерно наверное отвечает на ваш вопрос "как". вопрос "сколько" слишком спекулятивный:)
ну на счет спекуляции - наверно, но я не к интегратору обращаюсь 🙃, тут наверно больше интересен эмпирический путь, тех, кто работал с подобными задачами, lead time аналогичных проектов/задач
источник

S

Serezha in Natural Language Processing
Подскажите, есть ли готовый датасет "условной мировой таксономии", где можно по слову определить его классы. Например в духе "турник" -> "спортивный снаряд" -> "спорт"
источник

S

Serezha in Natural Language Processing
Или в какую сторону копать чтобы получить такой базовый классификатор
источник

AS

Alex Surname in Natural Language Processing
по-моему вам просто нужно получить гипероним от слова
источник

DD

David Dale in Natural Language Processing
Serezha
Подскажите, есть ли готовый датасет "условной мировой таксономии", где можно по слову определить его классы. Например в духе "турник" -> "спортивный снаряд" -> "спорт"
wordnet (http://wordnetweb.princeton.edu/perl/webwn) для английского, ruwordnet (https://www.ruwordnet.ru/ru) для русского
источник

S

Serezha in Natural Language Processing
Спасибо, словарики полезные, значит надо работать с гиперонимами. А вычислить через них разные неоднозначности и нюансы получится? Например разницу понятий "клевый лук" != "лук шалот".
источник

S

Serezha in Natural Language Processing
чтобы понять что первое - про фешн, а второе - кулинария или ботаника
источник

AS

Alex Surname in Natural Language Processing
ворднет  по одному слову только принимает насколько я знаю
источник

AS

Alex Surname in Natural Language Processing
возможно вам поможет word2vec
источник

DD

David Dale in Natural Language Processing
Serezha
Спасибо, словарики полезные, значит надо работать с гиперонимами. А вычислить через них разные неоднозначности и нюансы получится? Например разницу понятий "клевый лук" != "лук шалот".
Для этого нужно решить задачу word sense disambiguation, для этого есть какое-то количество методов, погуглите.
Например, можно классифицировать смыслы, основываясь на контекстных эмбеддингах из берта.
А когда нужный смысл выбран, идти в wordnet.
источник

D

Danila Milovanov in Natural Language Processing
Ребят, есть вопрос по Tensorflow USE(multilingual), нормально ли эта модель работает с текстами например "разработка программного обеспечения с помощью языка Python", то есть будет ли модель учитывать что помимо основного содержания(русского текста) присутствует слово на другом языке(Python).
источник

D

Danila Milovanov in Natural Language Processing
Коротко о моём решении задачи:На вход идёт текст, по этому очищенному тексту(от англ. символов,пунктуации,символов) выдаёт наиболее похожие другие текста(которые уже векторизованы), и среди тех текстов, которые выдало, нужно найти документы которые похожи на входной текст учитывая английские термины и слова(грубо говоря отфильтровать работы). Пока что я в процессе решения второго пункта(фильтрации работ), возможно кто-то знает как лучше решить подобную задачу? Пока из идей: С помощью нечёткого поиска пройтись по работам используя очищенный от русских символов входной текст.
источник

D

Danila Milovanov in Natural Language Processing
Не прошу решения, просто хотелось бы узнать адекватно ли делать нечёткий поиск, или лучше сделать эмбеддинг текстов где только английский текст от исходного будет либо текстов не удаляя английский текст
источник

R

Renat in Natural Language Processing
Danila Milovanov
Ребят, есть вопрос по Tensorflow USE(multilingual), нормально ли эта модель работает с текстами например "разработка программного обеспечения с помощью языка Python", то есть будет ли модель учитывать что помимо основного содержания(русского текста) присутствует слово на другом языке(Python).
На коротких текстах он адекватно воспринимал микс, когда я пробовал
И для известных слов вроде Python или Adrenaline Rush у него представления как раз и будут похожи у английских и «транслитерированных вариантов» вроде
источник

D

Danila Milovanov in Natural Language Processing
Ну у меня в основном средние текста(200-300 токенов), и как-то у меня не получилось адекватного результата.
источник

R

Renat in Natural Language Processing
У него в токенизации зашита обрезка по скольки-то токенам
Возможно, у тебя длина текста больше

https://github.com/tensorflow/hub/issues/244
источник

CT

Cookie Thief in Natural Language Processing
Danila Milovanov
Ну у меня в основном средние текста(200-300 токенов), и как-то у меня не получилось адекватного результата.
У большого юса ограничение в 100 токенов, у маленького в 256
источник

D

Danila Milovanov in Natural Language Processing
У меня данная модель https://tfhub.dev/google/universal-sentence-encoder-multilingual-large/3 , берёт 500 токенов если не ошибаюсь
источник