Телеграмм чат группы natural_language_processing страница 486

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 November 27

YB

Yuri Baburov in Natural Language Processing

Народ, добрый день. Есть набор из 300тыс строк (названия тмц), Строки разложенны по группам. Для каждой группы свои правила/шаблоны для названий. Нужно на основе уже имеющихся строк выводить подсказку при вводе новой строки. Подскажите примеры /технологии.

Кластеризация или классификация, потом поиск кластера (группы), потом применение правил/шаблонов

источник

15:09пожаловаться #1

D(

David (ddale) Dale in Natural Language Processing

Народ, добрый день. Есть набор из 300тыс строк (названия тмц), Строки разложенны по группам. Для каждой группы свои правила/шаблоны для названий. Нужно на основе уже имеющихся строк выводить подсказку при вводе новой строки. Подскажите примеры /технологии.

Языковая модель.
Можно дополнительно обусловить на группу, если хочется.
Если с нейронками влом возиться, то можно старомодную, на n-граммах. В некоторых поисковиках саджест до сих пор, кажется, на них работает, и ничего)
Если есть прям строгие правила, то ими можно фильтровать гипотезы языковой модели.

источник

15:42пожаловаться #2

D(

David (ddale) Dale in Natural Language Processing

Народ, добрый день. Есть набор из 300тыс строк (названия тмц), Строки разложенны по группам. Для каждой группы свои правила/шаблоны для названий. Нужно на основе уже имеющихся строк выводить подсказку при вводе новой строки. Подскажите примеры /технологии.

Ну а вообще для бейзлайна можно тупо хэш-таблицу (или trie) со всеми префиксами и суффиксами в твоей обучающей выборке. Самые массовые кейсы уже неплохо закроет))

источник

15:44пожаловаться #3

A

Alexey in Natural Language Processing

Народ, есть ссылки где достать параллельные sentence-aligned тексты rus-en?

источник

16:07пожаловаться #4

P

Pavel S in Natural Language Processing

Народ, есть ссылки где достать параллельные sentence-aligned тексты rus-en?

1) http://opus.nlpl.eu 2)WMT 3) http://matrix.statmt.org

источник

16:22пожаловаться #5

ДТ

Дмитрий Тырин in Natural Language Processing

Всем привет! Кто-нибудь работал с библиотекой kenlm?

источник

17:03пожаловаться #6

NS

Nikolay Shmyrev in Natural Language Processing

Дмитрий Тырин

Всем привет! Кто-нибудь работал с библиотекой kenlm?

https://nometa.xyz/

источник

17:10пожаловаться #7

ДТ

Дмитрий Тырин in Natural Language Processing

Сори.
1) Где можно взять большой корпус текстов, которые подойдут для построения языковых моделей?
2) Какие настройки оптимальны в kenlm для построения lm русского языка?

источник

17:13пожаловаться #8

NS

Nikolay Shmyrev in Natural Language Processing

Дмитрий Тырин

Сори.
1) Где можно взять большой корпус текстов, которые подойдут для построения языковых моделей?
2) Какие настройки оптимальны в kenlm для построения lm русского языка?

https://github.com/TatianaShavrina/taiga_site

TatianaShavrina/taiga_site

Contribute to TatianaShavrina/taiga_site development by creating an account on GitHub.

источник

17:17пожаловаться #9

NS

Nikolay Shmyrev in Natural Language Processing

Настройки стандартные, там нечего настраивать

источник

17:17пожаловаться #10

R

Roman in Natural Language Processing

2) готовая модель http://files.deeppavlov.ai/lang_models/ru_wiyalen_no_punkt.arpa.binary.gz

источник

17:20пожаловаться #11

ДТ

Дмитрий Тырин in Natural Language Processing

Спасибо!👍😎

источник

17:21пожаловаться #12

ДТ

Дмитрий Тырин in Natural Language Processing

2) готовая модель http://files.deeppavlov.ai/lang_models/ru_wiyalen_no_punkt.arpa.binary.gz

Не подскажешь какой командой сгенерить trie отсюда?

источник

18:18пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

2) готовая модель http://files.deeppavlov.ai/lang_models/ru_wiyalen_no_punkt.arpa.binary.gz

Только модель странная, имейте в виду. Хрен знает, из чего собрана, но она как-то плохо работает в качестве универсальной. Я свою делал -- намного лучше была.

источник

18:19пожаловаться #14

ДТ

Дмитрий Тырин in Natural Language Processing

Только модель странная, имейте в виду. Хрен знает, из чего собрана, но она как-то плохо работает в качестве универсальной. Я свою делал -- намного лучше была.

Поделитесь советами как сделать хорошую lm модель?

источник

18:31пожаловаться #15

K

Kir in Natural Language Processing

друзья, у меня сегодня первый день с MLPClassifier,
на вход даю ему эмбеддинги размерностью 500.
мультикласс
подскажите, пожалуйста, как правильно его погонять по gridsearch?
прочитал где-то, условно, что обычно 1...2 скрытых хватит, а населять их надо по принципу "что-то среднее между числом входных и выходных".
есть какое-то общее правило-хитрость для эмбеддингов?
или это вообще плохая идея может быть - подобного рода сеть?

источник

18:35пожаловаться #16

K

Kir in Natural Language Processing

(извините, что сюда, подумал, что из-за специфики типа эмбеддингов и классификации текста лучше сюда)

источник

18:37пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

Дмитрий Тырин

Поделитесь советами как сделать хорошую lm модель?

Хорошие данные для неё найти. Книжки + новости + Вики, скажем

источник

18:41пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

А потом просто скомпилить. И ещё учти, в им каком регистре тебе надо, и учитывать ли знаки препинания

источник

18:42пожаловаться #19

АБ

Александр Беляев in Natural Language Processing

Всем привет!
Подскажите, какую библиотеку лучше использовать, для поиска наименования строительного оборудования и техники, в очень коротких текстах (5-20 слов).
Пробовал регулярные выражения, но у них очень большое ветвление получается.

Примеры текстов:
Редуктор поворотный H100-195 на башенный кран б/у QTZ80RU (TC5512RU) ФАНЬЮЙАНЬ ЗАВОД
--
башенный кран Comansa NT45120

источник

20:03пожаловаться #20