Size: a a a

Natural Language Processing

2019 November 27

YB

Yuri Baburov in Natural Language Processing
Roman G
Народ, добрый день. Есть набор из 300тыс строк (названия тмц), Строки разложенны по группам. Для каждой группы свои правила/шаблоны для названий. Нужно на основе уже имеющихся строк выводить подсказку при вводе новой строки. Подскажите примеры /технологии.
Кластеризация или классификация, потом поиск кластера (группы), потом применение правил/шаблонов
источник

D(

David (ddale) Dale in Natural Language Processing
Roman G
Народ, добрый день. Есть набор из 300тыс строк (названия тмц), Строки разложенны по группам. Для каждой группы свои правила/шаблоны для названий. Нужно на основе уже имеющихся строк выводить подсказку при вводе новой строки. Подскажите примеры /технологии.
Языковая модель.
Можно дополнительно обусловить на группу, если хочется.
Если с нейронками влом возиться, то можно старомодную, на n-граммах. В некоторых поисковиках саджест до сих пор, кажется, на них работает, и ничего)
Если есть прям строгие правила, то ими можно фильтровать гипотезы языковой модели.
источник

D(

David (ddale) Dale in Natural Language Processing
Roman G
Народ, добрый день. Есть набор из 300тыс строк (названия тмц), Строки разложенны по группам. Для каждой группы свои правила/шаблоны для названий. Нужно на основе уже имеющихся строк выводить подсказку при вводе новой строки. Подскажите примеры /технологии.
Ну а вообще для бейзлайна можно тупо хэш-таблицу (или trie) со всеми префиксами и суффиксами в твоей обучающей выборке. Самые массовые кейсы уже неплохо закроет))
источник

A

Alexey in Natural Language Processing
Народ, есть ссылки где достать параллельные sentence-aligned тексты rus-en?
источник

P

Pavel S in Natural Language Processing
Alexey
Народ, есть ссылки где достать параллельные sentence-aligned тексты rus-en?
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Всем привет! Кто-нибудь работал с библиотекой kenlm?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Дмитрий Тырин
Всем привет! Кто-нибудь работал с библиотекой kenlm?
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Сори.
1) Где можно взять большой корпус текстов, которые подойдут для построения языковых моделей?
2) Какие настройки оптимальны в kenlm для построения lm русского языка?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Дмитрий Тырин
Сори.
1) Где можно взять большой корпус текстов, которые подойдут для построения языковых моделей?
2) Какие настройки оптимальны в kenlm для построения lm русского языка?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Настройки стандартные, там нечего настраивать
источник

R

Roman in Natural Language Processing
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Спасибо!👍😎
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Не подскажешь какой командой сгенерить trie отсюда?
источник

YB

Yuri Baburov in Natural Language Processing
Только модель странная, имейте в виду. Хрен знает, из чего собрана, но она как-то плохо работает в качестве универсальной. Я свою делал -- намного лучше была.
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Yuri Baburov
Только модель странная, имейте в виду. Хрен знает, из чего собрана, но она как-то плохо работает в качестве универсальной. Я свою делал -- намного лучше была.
Поделитесь советами как сделать хорошую lm модель?
источник

K

Kir in Natural Language Processing
друзья, у меня сегодня первый день с MLPClassifier,
на вход даю ему эмбеддинги размерностью 500.
мультикласс
подскажите, пожалуйста, как правильно его погонять по gridsearch?
прочитал где-то, условно, что обычно 1...2 скрытых хватит, а населять их надо по принципу "что-то среднее между числом входных и выходных".
есть какое-то общее правило-хитрость для эмбеддингов?
или это вообще плохая идея может быть - подобного рода сеть?
источник

K

Kir in Natural Language Processing
(извините, что сюда, подумал, что из-за специфики типа эмбеддингов и классификации текста лучше сюда)
источник

YB

Yuri Baburov in Natural Language Processing
Дмитрий Тырин
Поделитесь советами как сделать хорошую lm модель?
Хорошие данные для неё найти. Книжки + новости + Вики, скажем
источник

YB

Yuri Baburov in Natural Language Processing
А потом просто скомпилить. И ещё учти, в им каком регистре тебе надо, и учитывать ли знаки препинания
источник

АБ

Александр Беляев in Natural Language Processing
Всем привет!
Подскажите, какую библиотеку лучше использовать, для поиска наименования строительного оборудования и техники, в очень коротких текстах (5-20 слов).
Пробовал регулярные выражения, но у них очень большое ветвление получается.

Примеры текстов:
Редуктор поворотный H100-195 на башенный кран б/у QTZ80RU (TC5512RU) ФАНЬЮЙАНЬ ЗАВОД
--
башенный кран Comansa NT45120
источник