Size: a a a

Natural Language Processing

2020 July 23

YB

Yuri Baburov in Natural Language Processing
I Апрельский
Это какая-то личная метафора? Или она широко используется?
личная. говорю же, что подобный подход сейчас почти нигде не используется. вероятно, из-за сложности реализации (и отсутствия датасетов).
источник

OD

Oleg Durandin in Natural Language Processing
А есть какие-то более-менее устоявшиеся инструменты анализа дискурса (RTS, например)?
Для русского языка, естественно)
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Кибер Медик
Нет, в стензе только сами модели языков.
я может не совсем понял о чем ты, но нашел  код у них для обучения своих моделей NER, со скриптами и прочим. а их готовые модели юзаю в spacy. мне показалось что ничто не мешает потом заменить  их  модель  в pipeline на дообученную под себя.
источник
2020 July 24

RB

Radion Bikmukhamedov in Natural Language Processing
Yuri Baburov
чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.
как думаешь, какое качество получится NER  выйдет для малого числа данных (порядка 100 на класс) на базе твоей модели если делать с нуля, но  с векторами?
источник

YB

Yuri Baburov in Natural Language Processing
Radion Bikmukhamedov
как думаешь, какое качество получится NER  выйдет для малого числа данных (порядка 100 на класс) на базе твоей модели если делать с нуля, но  с векторами?
неплохое получается качество обычно даже в таких условиях. главное — чтобы какие-то вектора были, они заменяют обучение морфологии и лексики языка.
источник

КМ

Кибер Медик... in Natural Language Processing
Radion Bikmukhamedov
я может не совсем понял о чем ты, но нашел  код у них для обучения своих моделей NER, со скриптами и прочим. а их готовые модели юзаю в spacy. мне показалось что ничто не мешает потом заменить  их  модель  в pipeline на дообученную под себя.
Ссылочку в студию) пожалуйста)
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Кибер Медик
Ссылочку в студию) пожалуйста)
https://github.com/stanfordnlp/stanza
там есть папочка scripts и если дальше распутывать клубок то все понятно. код оч хорошо написан у них
источник

КМ

Кибер Медик... in Natural Language Processing
Radion Bikmukhamedov
https://github.com/stanfordnlp/stanza
там есть папочка scripts и если дальше распутывать клубок то все понятно. код оч хорошо написан у них
источник

r

rit in Natural Language Processing
https://blog.robofied.com/linear-regression/
Check out detailed explanation on Linear Regression.
источник

AO

Alex Orgish in Natural Language Processing
Подскажите пожалуйста, есть ли какие-то решения для разбивки текста на предложения, в идеале - проставление всех знаков препинания. Есть текст, полученный из распознования речи, там просто поток слов в нижнем регистре. Хотелось бы в этот текст добавить знаки препинания (верхний регистр можно теоритически через ner добавить). Куда копать, может есть термин для такой задачи? Язык пока не важен, интересен сам подход.
источник

YB

Yuri Baburov in Natural Language Processing
Alex Orgish
Подскажите пожалуйста, есть ли какие-то решения для разбивки текста на предложения, в идеале - проставление всех знаков препинания. Есть текст, полученный из распознования речи, там просто поток слов в нижнем регистре. Хотелось бы в этот текст добавить знаки препинания (верхний регистр можно теоритически через ner добавить). Куда копать, может есть термин для такой задачи? Язык пока не важен, интересен сам подход.
называется spell checking или восстановление знаков препинания.
раз в неделю кто-нибудь такое спрашивает здесь или в t.me/speech_recognition_ru
источник

AO

Alex Orgish in Natural Language Processing
Спасибо большое, считал что spell checking - это только про опечатки.
источник

YB

Yuri Baburov in Natural Language Processing
Capitalization and Punctuation Restoration вполне себе нормально гуглится.
источник
2020 July 26

M

Manoj in Natural Language Processing
Any machine learning based free web scrapping tool?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Alex Orgish
Подскажите пожалуйста, есть ли какие-то решения для разбивки текста на предложения, в идеале - проставление всех знаков препинания. Есть текст, полученный из распознования речи, там просто поток слов в нижнем регистре. Хотелось бы в этот текст добавить знаки препинания (верхний регистр можно теоритически через ner добавить). Куда копать, может есть термин для такой задачи? Язык пока не важен, интересен сам подход.
источник

NS

Nikolay Shmyrev in Natural Language Processing
Надо бы словнет кстати к пунктуации попробовать, должно быстро работать. А то берт жуткий.
источник

$

$○| in Natural Language Processing
где взять нормальные диалоги между двумя юзерами?
источник

$

$○| in Natural Language Processing
Может купить где-то датасет на русском можно?
источник

$

$○| in Natural Language Processing
Мне для голосового ассистента нужно
источник

$

$○| in Natural Language Processing
А то кроме Persona Chat от Яндекса ничего не нахожу
источник