Телеграмм чат группы natural_language

2020 July 23

YB

Yuri Baburov in Natural Language Processing

Это какая-то личная метафора? Или она широко используется?

личная. говорю же, что подобный подход сейчас почти нигде не используется. вероятно, из-за сложности реализации (и отсутствия датасетов).

источник

23:46пожаловаться #1

OD

Oleg Durandin in Natural Language Processing

А есть какие-то более-менее устоявшиеся инструменты анализа дискурса (RTS, например)?
Для русского языка, естественно)

источник

23:56пожаловаться #2

RB

Radion Bikmukhamedov in Natural Language Processing

Кибер Медик

Нет, в стензе только сами модели языков.

я может не совсем понял о чем ты, но нашел код у них для обучения своих моделей NER, со скриптами и прочим. а их готовые модели юзаю в spacy. мне показалось что ничто не мешает потом заменить их модель в pipeline на дообученную под себя.

источник

23:59пожаловаться #3

2020 July 24

RB

Radion Bikmukhamedov in Natural Language Processing

Yuri Baburov

чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.

GitHub

Release POS & DEP model for spaCy 2.3 based on SynTagRus and navec · buriy/spacy-ru

POS & DEP model for spaCy 2.3: POS tagger and DEP (syntax analysis) models, trained on SynTagRus, using Navec vectors & pymorphy2 morphology.
Quality on SynTagRus-test:
POS | 95.31%
DEP UAS...

как думаешь, какое качество получится NER выйдет для малого числа данных (порядка 100 на класс) на базе твоей модели если делать с нуля, но с векторами?

источник

00:06пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

Radion Bikmukhamedov

как думаешь, какое качество получится NER выйдет для малого числа данных (порядка 100 на класс) на базе твоей модели если делать с нуля, но с векторами?

неплохое получается качество обычно даже в таких условиях. главное — чтобы какие-то вектора были, они заменяют обучение морфологии и лексики языка.

источник

00:07пожаловаться #5

КМ

Кибер Медик... in Natural Language Processing

Radion Bikmukhamedov

я может не совсем понял о чем ты, но нашел код у них для обучения своих моделей NER, со скриптами и прочим. а их готовые модели юзаю в spacy. мне показалось что ничто не мешает потом заменить их модель в pipeline на дообученную под себя.

Ссылочку в студию) пожалуйста)

источник

06:55пожаловаться #6

RB

Radion Bikmukhamedov in Natural Language Processing

Кибер Медик

Ссылочку в студию) пожалуйста)

https://github.com/stanfordnlp/stanza
там есть папочка scripts и если дальше распутывать клубок то все понятно. код оч хорошо написан у них

GitHub

stanfordnlp/stanza

Official Stanford NLP Python Library for Many Human Languages - stanfordnlp/stanza

источник

09:38пожаловаться #7

КМ

Кибер Медик... in Natural Language Processing

Radion Bikmukhamedov

https://github.com/stanfordnlp/stanza
там есть папочка scripts и если дальше распутывать клубок то все понятно. код оч хорошо написан у них

GitHub

stanfordnlp/stanza

Official Stanford NLP Python Library for Many Human Languages - stanfordnlp/stanza

r

rit in Natural Language Processing

https://blog.robofied.com/linear-regression/
Check out detailed explanation on Linear Regression.

Robofied

Linear Regression in Machine Learning - Robofied Blog

Linear Regression is studied to understand the relation between the output variable(y) and the input variables(X). If there is only one input variable then we called it Simple Linear Regression and for more than one input variable, it is referred to as Multiple Linear Regression.

источник

12:37пожаловаться #9

AO

Alex Orgish in Natural Language Processing

Подскажите пожалуйста, есть ли какие-то решения для разбивки текста на предложения, в идеале - проставление всех знаков препинания. Есть текст, полученный из распознования речи, там просто поток слов в нижнем регистре. Хотелось бы в этот текст добавить знаки препинания (верхний регистр можно теоритически через ner добавить). Куда копать, может есть термин для такой задачи? Язык пока не важен, интересен сам подход.

источник

12:53пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

Alex Orgish

Подскажите пожалуйста, есть ли какие-то решения для разбивки текста на предложения, в идеале - проставление всех знаков препинания. Есть текст, полученный из распознования речи, там просто поток слов в нижнем регистре. Хотелось бы в этот текст добавить знаки препинания (верхний регистр можно теоритически через ner добавить). Куда копать, может есть термин для такой задачи? Язык пока не важен, интересен сам подход.

называется spell checking или восстановление знаков препинания.
раз в неделю кто-нибудь такое спрашивает здесь или в t.me/speech_recognition_ru

Распознавание речи

Распознавание, синтез речи и речевые технологии

источник

12:55пожаловаться #11

AO

Alex Orgish in Natural Language Processing

Спасибо большое, считал что spell checking - это только про опечатки.

источник

13:01пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

Capitalization and Punctuation Restoration вполне себе нормально гуглится.

источник

13:21пожаловаться #13

2020 July 26

M

Manoj in Natural Language Processing

Any machine learning based free web scrapping tool?

источник

11:56пожаловаться #14

NS

Nikolay Shmyrev in Natural Language Processing

Alex Orgish

Подскажите пожалуйста, есть ли какие-то решения для разбивки текста на предложения, в идеале - проставление всех знаков препинания. Есть текст, полученный из распознования речи, там просто поток слов в нижнем регистре. Хотелось бы в этот текст добавить знаки препинания (верхний регистр можно теоритически через ner добавить). Куда копать, может есть термин для такой задачи? Язык пока не важен, интересен сам подход.

https://t.me/natural_language_processing/14353

Nikolay V. Shmyrev in Natural Language Processing

https://github.com/episodeyang/deep-auto-punctuation
https://github.com/panda-baba/bert_punct
https://github.com/nkrnrnk/BertPunc
https://github.com/miguelballesteros/LSTM-punctuation
https://github.com/dave-chatmost/pytorch-punctuator
https://github.com/bedapudi6788/deepcorrect
https://github.com/tensorflow/lingvo/tree/master/lingvo/tasks/punctuator
https://github.com/alpoktem/punkProse
https://github.com/ottokart/punctuator2

источник

12:03пожаловаться #15

NS

Nikolay Shmyrev in Natural Language Processing

Надо бы словнет кстати к пунктуации попробовать, должно быстро работать. А то берт жуткий.

источник

12:21пожаловаться #16

$

$○| in Natural Language Processing