Телеграмм чат группы natural_language

Sebastian Pereira in Natural Language Processing

14:30пожаловаться #1

SP

Russian · spaCy Models Documentation (nightly)

Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.

Russian

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

Огонь! Заведите Патреон или другой способ доната - вы охрененные!

14:36пожаловаться #2

YB

Russian model proposal · Discussion #6628 · explosion/spaCy

viktor

так и должно быть по нулям?

да, дискуссия здесь: https://github.com/explosion/spaCy/discussions/6628#discussioncomment-278881
если кратко, "To keep things simpler in Spacy (at least initially), we'll also use the same vectors config we use for our other pipelines, where md is pruned to 20K vectors and lg has all 500K vectors (and sm has no vectors)".

GitHub

💫 Industrial-strength Natural Language Processing (NLP) with Python and Cython - explosion/spaCy

15:19пожаловаться #3

YB

Russian model proposal · Discussion #6628 · explosion/spaCy

да, дискуссия здесь: https://github.com/explosion/spaCy/discussions/6628#discussioncomment-278881
если кратко, "To keep things simpler in Spacy (at least initially), we'll also use the same vectors config we use for our other pipelines, where md is pruned to 20K vectors and lg has all 500K vectors (and sm has no vectors)".

GitHub

💫 Industrial-strength Natural Language Processing (NLP) with Python and Cython - explosion/spaCy

spacy использует комбинированную модель, и кроме векторов для слов использует другие внутренние эмбеддинги, поэтому на качестве это не так сильно складывается.

Кибер Медик... in Natural Language Processing

15:31пожаловаться #4

КМ

YB

spacy использует комбинированную модель, и кроме векторов для слов использует другие внутренние эмбеддинги, поэтому на качестве это не так сильно складывается.

примерно вот так, тут правда с 20к начинается, на 0к ещё немного упадёт.

Arthur Saprykin in Natural Language Processing

15:36пожаловаться #6

AS

Russian · spaCy Models Documentation (nightly)

Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.

Russian

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

👏🏼🤟🏼

Мария 🍁 Молчанова... in Natural Language Processing

16:18пожаловаться #7

ММ

Коллеги, подскажите, пожалуйста. Кто объединял 2 языковые модели? Каким инструментом вы пользовались?

Sebastian Pereira in Natural Language Processing

22:33пожаловаться #8

SP

Мария 🍁 Молчанова

Коллеги, подскажите, пожалуйста. Кто объединял 2 языковые модели? Каким инструментом вы пользовались?

В каком смысле «объединял»? У нас «архитектура» из нескольких - писали инфраструктурный код на питоне.

Sebastian Pereira in Natural Language Processing

22:37пожаловаться #9

SP

В смысле два разных языка?

Мария 🍁 Молчанова... in Natural Language Processing

22:37пожаловаться #10

ММ

Sebastian Pereira

В каком смысле «объединял»? У нас «архитектура» из нескольких - писали инфраструктурный код на питоне.

Допустим, если есть одна языковая модель из N-грамм (общая лексика), и вторая (созданная под нужный домен) и нужно получить одну языковую модель, которая может использоваться, например, в beam search.

22:38пожаловаться #11

YB

Мария 🍁 Молчанова

Допустим, если есть одна языковая модель из N-грамм (общая лексика), и вторая (созданная под нужный домен) и нужно получить одну языковую модель, которая может использоваться, например, в beam search.

Если вам для ASR, спросите в группе распознавание речи, там всё давно проработано

Radmir Ibragimov in Natural Language Processing

22:40пожаловаться #12

2021 January 20

RI

Можете пожалуйста материалы по nltk накидать?