Телеграмм чат группы natural_language_processing страница 755

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1772 membersпожаловаться на группу

2020 July 26

Д

Датасаенсяш... in Natural Language Processing

Собирать тяжело) Диалоги из соцсетей/мессенджеров - личные данные. Диалоги техподдержки - вообще компаниям принадлежат.
Не понятно откуда опенсорсить)

источник

17:18пожаловаться #1

Д

Датасаенсяш... in Natural Language Processing

Ну, кроме комментариев. Комментарии, конечно, доступны

источник

17:18пожаловаться #2

Д

Датасаенсяш... in Natural Language Processing

И форумы

источник

17:19пожаловаться #3

Д

Датасаенсяш... in Natural Language Processing

Но все-таки общение в комментариях и диалог - несколько разные вещи)

источник

17:19пожаловаться #4

AK

Alexander Kukushkin in Natural Language Processing

Продолжение серии постов про проект Natasha. Что за Наташа? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке
2. https://t.me/natural_language_processing/17369 Почему Natasha не использует Transformers. BERT в 100 строк.
3. https://natasha.github.io/navec/ Navec — компактные эмбединги для русского языка
4. https://t.me/natural_language_processing/18186 BERT-модели Slovnet
#natasha

источник

22:02пожаловаться #5

AK

Alexander Kukushkin in Natural Language Processing

Corus — коллекция русскоязычных NLP-датасетов
https://natasha.github.io/corus

Часто полезные отрытые датасеты для русского языка так хорошо спрятаны, что мало людей про них знает.

Например, хотим просто обучить эмбединги на русских новостях, нужно несколько гигабайт текстов. Многие знают про Тайгу, там есть новостной срез https://tatianashavrina.github.io/taiga_site/downloads (1ГБ). На Гитхабе лежит дамп Ленты https://github.com/yutkin/Lenta.Ru-News-Dataset (2ГБ). Чтобы знать про другие источники нужно быть в теме, общаться, мониторить паблики: дамп РИА Новостей https://github.com/RossiyaSegodnya/ria_news_dataset (3.7ГБ), выгрузки @buriy https://github.com/buriy/russian-nlp-datasets/releases/tag/r4 (7.5ГБ), дампы волонтёров из ODS https://github.com/ods-ai-ml4sg/proj_news_viz/releases/tag/data.

В репозитории Corus https://github.com/natasha/corus мы коллекционируем ссылки на русскоязычный NLP-датасеты. Сейчас в реестре 54 источника, для 28 есть функции-загрузчики на Python.

Больше примеров в https://natasha.github.io/corus/
#natasha

natasha.github.io

Corus — коллекция русскоязычных NLP-датасетов

Ссылки на публичные русскоязычные датасеты, Python-пакет с функциями-загрузчиками

источник

22:03пожаловаться #6

AK

Alexander Kukushkin in Natural Language Processing

Напишите в личку @alexkuk кому интересно почитать статьи для natasha.github.io до публикации. Следующая будет про сегментацию текста на токены и предложения. С меня ссылочка до публикации, с вас ревью что непонятно.

источник

22:04пожаловаться #7

VG

Vadim Gudkov in Natural Language Processing

Alexander Kukushkin

Corus — коллекция русскоязычных NLP-датасетов
https://natasha.github.io/corus

Часто полезные отрытые датасеты для русского языка так хорошо спрятаны, что мало людей про них знает.

Например, хотим просто обучить эмбединги на русских новостях, нужно несколько гигабайт текстов. Многие знают про Тайгу, там есть новостной срез https://tatianashavrina.github.io/taiga_site/downloads (1ГБ). На Гитхабе лежит дамп Ленты https://github.com/yutkin/Lenta.Ru-News-Dataset (2ГБ). Чтобы знать про другие источники нужно быть в теме, общаться, мониторить паблики: дамп РИА Новостей https://github.com/RossiyaSegodnya/ria_news_dataset (3.7ГБ), выгрузки @buriy https://github.com/buriy/russian-nlp-datasets/releases/tag/r4 (7.5ГБ), дампы волонтёров из ODS https://github.com/ods-ai-ml4sg/proj_news_viz/releases/tag/data.

В репозитории Corus https://github.com/natasha/corus мы коллекционируем ссылки на русскоязычный NLP-датасеты. Сейчас в реестре 54 источника, для 28 есть функции-загрузчики на Python.

Больше примеров в https://natasha.github.io/corus/
#natasha

natasha.github.io

Corus — коллекция русскоязычных NLP-датасетов

Ссылки на публичные русскоязычные датасеты, Python-пакет с функциями-загрузчиками

Добавьте ParaPhraser! (И ParaPhraser +)

источник

22:06пожаловаться #8

AK

Alexander Kukushkin in Natural Language Processing

Добавьте ParaPhraser! (И ParaPhraser +)

Пул реквесты приветствуются https://github.com/natasha/corus/issues/35 https://github.com/natasha/corus/issues/19

ParaPhraser+ · Issue #35 · natasha/corus

https://vk.com/wall-81368685_81

источник

22:07пожаловаться #9

D

D in Natural Language Processing

Вопрос по Наташе - ярги парсер организаций насегда убрали, или потом вернёте?

источник

22:07пожаловаться #10

D

D in Natural Language Processing

Хотелось бы парсить иерархические сущности типа отдел планирования и инвестиций министерства экономического развития Омской области например

источник

22:09пожаловаться #11

AK

Alexander Kukushkin in Natural Language Processing

На правилах разбор организаций не планируется, в общем виде это очень сложно. Для конкретных кейсов нужно писать свои правила

источник

22:12пожаловаться #12

KS

Konstantin Smith in Natural Language Processing

Такую иерархию для организаций делает Pullenti

источник

22:20пожаловаться #13

D

D in Natural Language Processing

Alexander Kukushkin

На правилах разбор организаций не планируется, в общем виде это очень сложно. Для конкретных кейсов нужно писать свои правила

Мне кажется наоборот просто, родительный падеж, существительные и прилагательные, а список видов подразделений - небольшой словарь

источник

22:42пожаловаться #14

D

D in Natural Language Processing

Konstantin Smith

Такую иерархию для организаций делает Pullenti

Ок, попробуем. pip3 install pullenti, или более сложная установка?

источник

22:43пожаловаться #15

N

Nikita in Natural Language Processing

Ок, попробуем. pip3 install pullenti, или более сложная установка?

Возможно, лучше (или проще) подойдёт
https://github.com/pullenti/pullenti-wrapper

источник

22:45пожаловаться #16

D

D in Natural Language Processing

Возможно, лучше (или проще) подойдёт
https://github.com/pullenti/pullenti-wrapper

Спасибо! Вот этот фактор немного обескураживающий - Очень сложный код. Тяжело понять, что пошло не так есть, если в результате ошибка

источник

22:48пожаловаться #17

2020 July 27

GZ

German Zvonchuk in Natural Language Processing

Здравствуйте Друзья,

у меня есть в БД много-много объявлений по продаже и аренде квартир.

Мне нужен механизм, при помощи которого я смогу определять, какое объявление является продажей, какое арендой на месяц, а какое объявление об аренде посуточно.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Стоит ли опираться только на текст или брать в расчет и цену и пытаться сделать правильный вывод?

источник

10:35пожаловаться #18

NS

Nikolay Shmyrev in Natural Language Processing

> Как эффективнее всего сделать это?

Ключевые фразы в текстах искать.

> Стоит ли опираться только на текст или брать в расчет и цену и пытаться сделать правильный вывод?

Да. Чем больше информации, тем лучше.

источник

11:15пожаловаться #19

SJ

Scatm J in Natural Language Processing

Всем привет. Использую Наташу для определение локаций и имен. Правильно понимаю, чтобы понимать всяческие сокращения типа "СПб", "Мск" и т.п. сверху нужно написать свои правила с yargy? А также, что лучше сделать в том случае, если появляется имя, которое наташа не может грамотно распарсить? (Т.е. у меня обязательно должны быть имя и фамилия, но есть имена, которые Наташа матчит в разные "Per")

источник

11:31пожаловаться #20