Size: a a a

Natural Language Processing

2021 January 19

v

viktor in Natural Language Processing
так и должно быть по нулям?
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.
Огонь! Заведите Патреон или другой способ доната - вы охрененные!
источник

YB

Yuri Baburov in Natural Language Processing
viktor
так и должно быть по нулям?
да, дискуссия здесь: https://github.com/explosion/spaCy/discussions/6628#discussioncomment-278881
если кратко, "To keep things simpler in Spacy (at least initially), we'll also use the same vectors config we use for our other pipelines, where md is pruned to 20K vectors and lg has all 500K vectors (and sm has no vectors)".
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
да, дискуссия здесь: https://github.com/explosion/spaCy/discussions/6628#discussioncomment-278881
если кратко, "To keep things simpler in Spacy (at least initially), we'll also use the same vectors config we use for our other pipelines, where md is pruned to 20K vectors and lg has all 500K vectors (and sm has no vectors)".
spacy использует комбинированную модель, и кроме векторов для слов использует другие внутренние эмбеддинги, поэтому на качестве это не так сильно складывается.
источник

КМ

Кибер Медик... in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
spacy использует комбинированную модель, и кроме векторов для слов использует другие внутренние эмбеддинги, поэтому на качестве это не так сильно складывается.
примерно вот так, тут правда с 20к начинается, на 0к ещё немного упадёт.
источник

AS

Arthur Saprykin in Natural Language Processing
Yuri Baburov
Встречаем русские модели в официальном каталоге Spacy !
Мы плыли, плыли, и наконец приплыли:
https://nightly.spacy.io/models/ru
( вошло в https://github.com/explosion/spaCy/releases/tag/v3.0.0rc3 )
Модели там только для spacy 3.0 , а для версии 2.3 модели у меня: https://github.com/buriy/spacy-ru
огромное спасибо Саше @alexkuk за подготовку релиза и датасетов и немного спасибо мне. И конечно спасибо контрибуторам в spacy-ru , что помогли нам проложить дорогу к светлому будущему. Ещё не всё вошло в этот релиз, только самое основное. Будем улучшать в частности лемматизацию и выделение noun_chunks, а потом и токенизацию. И релиз с трансформерами сделаем.
👏🏼🤟🏼
источник

ММ

Мария 🍁 Молчанова... in Natural Language Processing
Коллеги, подскажите, пожалуйста. Кто объединял 2 языковые модели? Каким инструментом вы пользовались?
источник

SP

Sebastian Pereira in Natural Language Processing
Мария 🍁 Молчанова
Коллеги, подскажите, пожалуйста. Кто объединял 2 языковые модели? Каким инструментом вы пользовались?
В каком смысле «объединял»? У нас «архитектура» из нескольких - писали инфраструктурный код на питоне.
источник

SP

Sebastian Pereira in Natural Language Processing
В смысле два разных языка?
источник

ММ

Мария 🍁 Молчанова... in Natural Language Processing
Sebastian Pereira
В каком смысле «объединял»? У нас «архитектура» из нескольких - писали инфраструктурный код на питоне.
Допустим, если есть одна языковая модель из N-грамм (общая лексика), и вторая (созданная под нужный домен) и нужно получить одну языковую модель, которая может использоваться, например, в beam search.
источник

YB

Yuri Baburov in Natural Language Processing
Мария 🍁 Молчанова
Допустим, если есть одна языковая модель из N-грамм (общая лексика), и вторая (созданная под нужный домен) и нужно получить одну языковую модель, которая может использоваться, например, в beam search.
Если вам для ASR, спросите в группе распознавание речи, там всё давно проработано
источник
2021 January 20

RI

Radmir Ibragimov in Natural Language Processing
Можете пожалуйста материалы по nltk накидать?
источник

RI

Radmir Ibragimov in Natural Language Processing
источник

RI

Radmir Ibragimov in Natural Language Processing
Спасибо
источник

NK

ID:1525508642 in Natural Language Processing
Any one interested in this International Workshop on Natural Language processing. Message me
источник

SS

Svetlana Svetlana in Natural Language Processing
Здравствуйте! А можно ли как-то сохранить множественные число при лемматизации в Наташе?
источник

DD

David Dale in Natural Language Processing
Svetlana Svetlana
Здравствуйте! А можно ли как-то сохранить множественные число при лемматизации в Наташе?
Сохранить - нет. Но можно посмотреть, какое число было у токена исходно, и в это число его лемму просклонять с помощью pymorphy.
источник

SS

Svetlana Svetlana in Natural Language Processing
David Dale
Сохранить - нет. Но можно посмотреть, какое число было у токена исходно, и в это число его лемму просклонять с помощью pymorphy.
Спасибо, поняла)
источник

MF

Max Frai in Natural Language Processing
Привет, подскажите чем лучше определить жанр новости? (политика, спорт, наука, ...)
источник