Size: a a a

Natural Language Processing

2020 January 24

SP

Sebastian Pereira in Natural Language Processing
Vlad
А вы уверены, что он именно виснет, а не просто очень долго парсит?
У меня похоже было с английским spaCy и файлом на 300мб
виснет и ось убивает процесс, а с мленкими кусочками все норм
источник

ck

cnstntn kndrtv in Natural Language Processing
Подскажите, чем обучены (или по какому принципу составлены руками) модели CRF в Natasha? Например /models/nane.crf.json
источник
2020 January 25

AN

Alexey Nacharov in Natural Language Processing
Коллеги, подскажите, пожалуйста, как между собой соотносятся задачи Semantic Role Labeling и Information Extraction? Насколько я понимаю смысл SRL в том, чтобы научиться понимать что одно и то же может быть записано разными способами, сводить разнообразие форм предложений естественной речи к единой строгой форме.  В случае NER и RE мы вроде получаем тоже самое: только вместо семантических ролей у нас сущности, а вместо их атрибутов – связи. Или нет?
источник
2020 January 26

ИГ

Иван Гладуш in Natural Language Processing
А кто-то использовал Наташу для решения NER на другом языке? если да, то напишите пожалуйста,  есть пара вопросов, хотелось бы обсудить
источник

K

Kir in Natural Language Processing
Не совсем понятно ( все кто использовал Наташу, использовали ее для извлечения сущностей
источник

VF

Vadim Fomin in Natural Language Processing
вопрос про другие языки же)
источник

ИГ

Иван Гладуш in Natural Language Processing
Да вопрос именно про другие языки,  мне показалось что Наташа заведется быстро для выделения имен на другом языке,  нужно только подложить first.txt last.txt нужный,  после этого подпилить yargy, чтобы он имел словарь нужного языка и понимал все буквы этого языка, но как оказалось этого не достаточно. Есть проблема, которая мне совершенно не дает покоя, имя есть в first.txt yargy в одной из форм слова, показывает ему tag Name, но Наташа в упор не хочет матчить это слово и как это починить у меня все идеи закончились, вот и хотелось пообщаться с человеком который решал данную задачу на другом языке
источник

K

Kir in Natural Language Processing
Vadim Fomin
вопрос про другие языки же)
Немного воскресно невнимателен, прошу извинить (
источник

STM32F04 и анамнезис in Natural Language Processing
коллеги, возникла проблема, надеюсь на помощь.

Есть список товаров и их классы, проблема в том, что названия товаров зачастую выглядят как-то так:


Этикетка самокл с перф Nokian 100х110
Подшипник 303 ГОСТ 8338-75
Пружина сжатия D-176 GUTEKUNST
Затвор дисковый V-KN100-H000N0 DN100PN16  (класс - запчасти)
Нож дисковый 450х310х40 (класс - инструменты)

не совсем понимаю, как лучше предобработать текст, как влияют подобные цифры, буквы в названии "..ГОСТ 833"?
источник

STM32F04 и анамнезис in Natural Language Processing
и вообще, какие подходы/модели посоветуете? Пробовал байсесовским классификатором и небольшой полно-связной сеткой, аккуратность - 75% максимум. Мб есть идеи?
источник

AP

Alexander Petrov in Natural Language Processing
мудачество какое-то (статья) :) . Лучше бы написали для начала что значит Хороший программист
источник

YB

Yuri Baburov in Natural Language Processing
Alexander Petrov
мудачество какое-то (статья) :) . Лучше бы написали для начала что значит Хороший программист
о, для этого на хабре ещё 500 статей есть)))
источник

AP

Alexander Petrov in Natural Language Processing
кстати, друзья, а не подскажете где взять хороший рус-англ корпус?
источник

YB

Yuri Baburov in Natural Language Processing
STM32F04 и анамнезис
и вообще, какие подходы/модели посоветуете? Пробовал байсесовским классификатором и небольшой полно-связной сеткой, аккуратность - 75% максимум. Мб есть идеи?
надо добавить character-level фичи, можно хотя бы как
D-176 GUTEKUNST -> D-NNN GUTEKUNST
450х310х40 -> NNNхNNNхNN
можно также эмбеддингами с char-level features, они сами могут такому научиться.
но если классов много, то точность не сильно жирной сетки будет падать от этого (у меня падает на подобных разнообразных названиях), попробуй сначала поделить на категории товаров, и угадывать уже в категории.
(если категорий нет, то сделать их какой-нибудь кластеризацией)
источник

STM32F04 и анамнезис in Natural Language Processing
96 классов товаров, не уверен, получиться ли их в кластеры собрать
источник

STM32F04 и анамнезис in Natural Language Processing
там этих character-level фич тысячи получится
источник

YB

Yuri Baburov in Natural Language Processing
не, 96 классов — это мало тогда. тогда непонятно, смотри, какие у тебя ошибки и сортируй ошибки по уверенности сети.
т.е. смотри, в чём сеть уверенно ошибается, и почему
источник

YB

Yuri Baburov in Natural Language Processing
может данных мало просто?
источник

STM32F04 и анамнезис in Natural Language Processing
примеров 24 тысячи
источник

STM32F04 и анамнезис in Natural Language Processing
уже так делал, она ошибается, когда такие случаи, что я описал выше:

Затвор дисковый V-KN100-H000N0 DN100PN16  (класс - запчасти)
Нож дисковый 450х310х40 (класс - инструменты)

Там может быть буквально схожие тексты, а классы разные
источник