Size: a a a

Natural Language Processing

2020 July 26

Д

Датасаенсяш... in Natural Language Processing
Собирать тяжело) Диалоги из соцсетей/мессенджеров - личные данные. Диалоги техподдержки - вообще компаниям принадлежат.
Не понятно откуда опенсорсить)
источник

Д

Датасаенсяш... in Natural Language Processing
Ну, кроме комментариев. Комментарии, конечно, доступны
источник

Д

Датасаенсяш... in Natural Language Processing
И форумы
источник

Д

Датасаенсяш... in Natural Language Processing
Но все-таки общение в комментариях и диалог - несколько разные вещи)
источник

AK

Alexander Kukushkin in Natural Language Processing
Продолжение серии постов про проект Natasha. Что за Наташа? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке
2. https://t.me/natural_language_processing/17369 Почему Natasha не использует Transformers. BERT в 100 строк.
3. https://natasha.github.io/navec/ Navec — компактные эмбединги для русского языка
4. https://t.me/natural_language_processing/18186 BERT-модели Slovnet
#natasha
источник

AK

Alexander Kukushkin in Natural Language Processing
Corus — коллекция русскоязычных NLP-датасетов
https://natasha.github.io/corus

Часто полезные отрытые датасеты для русского языка так хорошо спрятаны, что мало людей про них знает.

Например, хотим просто обучить эмбединги на русских новостях, нужно несколько гигабайт текстов. Многие знают про Тайгу, там есть новостной срез https://tatianashavrina.github.io/taiga_site/downloads (1ГБ). На Гитхабе лежит дамп Ленты https://github.com/yutkin/Lenta.Ru-News-Dataset (2ГБ). Чтобы знать про другие источники нужно быть в теме, общаться, мониторить паблики: дамп РИА Новостей https://github.com/RossiyaSegodnya/ria_news_dataset (3.7ГБ), выгрузки @buriy https://github.com/buriy/russian-nlp-datasets/releases/tag/r4 (7.5ГБ), дампы волонтёров из ODS https://github.com/ods-ai-ml4sg/proj_news_viz/releases/tag/data.

В репозитории Corus https://github.com/natasha/corus мы коллекционируем ссылки на русскоязычный NLP-датасеты. Сейчас в реестре 54 источника, для 28 есть функции-загрузчики на Python.

Больше примеров в https://natasha.github.io/corus/
#natasha
источник

AK

Alexander Kukushkin in Natural Language Processing
Напишите в личку @alexkuk кому интересно почитать статьи для natasha.github.io до публикации. Следующая будет про сегментацию текста на токены и предложения. С меня ссылочка до публикации, с вас ревью что непонятно.
источник

VG

Vadim Gudkov in Natural Language Processing
Alexander Kukushkin
Corus — коллекция русскоязычных NLP-датасетов
https://natasha.github.io/corus

Часто полезные отрытые датасеты для русского языка так хорошо спрятаны, что мало людей про них знает.

Например, хотим просто обучить эмбединги на русских новостях, нужно несколько гигабайт текстов. Многие знают про Тайгу, там есть новостной срез https://tatianashavrina.github.io/taiga_site/downloads (1ГБ). На Гитхабе лежит дамп Ленты https://github.com/yutkin/Lenta.Ru-News-Dataset (2ГБ). Чтобы знать про другие источники нужно быть в теме, общаться, мониторить паблики: дамп РИА Новостей https://github.com/RossiyaSegodnya/ria_news_dataset (3.7ГБ), выгрузки @buriy https://github.com/buriy/russian-nlp-datasets/releases/tag/r4 (7.5ГБ), дампы волонтёров из ODS https://github.com/ods-ai-ml4sg/proj_news_viz/releases/tag/data.

В репозитории Corus https://github.com/natasha/corus мы коллекционируем ссылки на русскоязычный NLP-датасеты. Сейчас в реестре 54 источника, для 28 есть функции-загрузчики на Python.

Больше примеров в https://natasha.github.io/corus/
#natasha
Добавьте ParaPhraser! (И ParaPhraser +)
источник

AK

Alexander Kukushkin in Natural Language Processing
Vadim Gudkov
Добавьте ParaPhraser! (И ParaPhraser +)
источник

D

D in Natural Language Processing
Вопрос по Наташе - ярги парсер организаций  насегда убрали, или потом вернёте?
источник

D

D in Natural Language Processing
Хотелось бы парсить иерархические сущности типа отдел планирования и инвестиций министерства экономического развития Омской области например
источник

AK

Alexander Kukushkin in Natural Language Processing
На правилах разбор организаций не планируется, в общем виде это очень сложно. Для конкретных кейсов нужно писать свои правила
источник

KS

Konstantin Smith in Natural Language Processing
Такую иерархию для организаций делает Pullenti
источник

D

D in Natural Language Processing
Alexander Kukushkin
На правилах разбор организаций не планируется, в общем виде это очень сложно. Для конкретных кейсов нужно писать свои правила
Мне кажется наоборот просто, родительный падеж, существительные и прилагательные, а список видов подразделений - небольшой словарь
источник

D

D in Natural Language Processing
Konstantin Smith
Такую иерархию для организаций делает Pullenti
Ок, попробуем. pip3 install pullenti, или более сложная установка?
источник

N

Nikita in Natural Language Processing
D
Ок, попробуем. pip3 install pullenti, или более сложная установка?
Возможно, лучше (или проще) подойдёт
https://github.com/pullenti/pullenti-wrapper
источник

D

D in Natural Language Processing
Nikita
Возможно, лучше (или проще) подойдёт
https://github.com/pullenti/pullenti-wrapper
Спасибо! Вот этот фактор немного обескураживающий - Очень сложный код. Тяжело понять, что пошло не так есть, если в результате ошибка
источник
2020 July 27

GZ

German Zvonchuk in Natural Language Processing
Здравствуйте Друзья,

у меня есть в БД много-много объявлений по продаже и аренде квартир.

Мне нужен механизм, при помощи которого я смогу определять, какое объявление является продажей, какое арендой на месяц, а какое объявление об аренде посуточно.

Может у кого-то был такой опыт?
Как эффективнее всего сделать это?

Стоит ли опираться только на текст или брать в расчет и цену и пытаться сделать правильный вывод?
источник

NS

Nikolay Shmyrev in Natural Language Processing
> Как эффективнее всего сделать это?

Ключевые фразы в текстах искать.

> Стоит ли опираться только на текст или брать в расчет и цену и пытаться сделать правильный вывод?

Да. Чем больше информации, тем лучше.
источник

SJ

Scatm J in Natural Language Processing
Всем привет. Использую Наташу для определение локаций и имен. Правильно понимаю, чтобы понимать всяческие сокращения типа "СПб", "Мск" и т.п. сверху нужно написать свои правила с yargy? А также, что лучше сделать в том случае, если появляется имя, которое наташа не может грамотно распарсить? (Т.е. у меня обязательно должны быть имя и фамилия, но есть имена, которые Наташа матчит в разные "Per")
источник