Size: a a a

Natural Language Processing

2021 April 01

VD

Vlad Dub in Natural Language Processing
Кибер Медик
word2vec, например, погуглите как устроено предсказание слова в гугл-клавиатуре, GPT и прочие, обычно для генирации текста используют, ради одного слова - overkill
gpt может и перебор, а word2vec дофига ресурсов компа жрет, я бы взял для этого bert
источник

DD

David Dale in Natural Language Processing
Кибер Медик
Всем привет) нет у кого-нибудь в закромах библиотеки/репы/скрипта, который бы коверкал предложение, например:

1. мне бы в печку дров закинуть -> мне бы выпечку дров закинуть
2. возьми щиты в бой -> возьми ищи ты в бой

Превращение двух-трех слов в одно, одного слова в два-три, как-то так)
Имитация ошибок speech to text?)
источник

КМ

Кибер Медик... in Natural Language Processing
David Dale
Имитация ошибок speech to text?)
агась)
источник

АМ

Александр Мамаев... in Natural Language Processing
Загляни в смежный чат https://t.me/speech_recognition_ru
источник

АМ

Александр Мамаев... in Natural Language Processing
Но кажется это пару десятков строчек поиска похожей подстроки по фонемам
источник

D

Dmitry in Natural Language Processing
Vlad Dub
gpt может и перебор, а word2vec дофига ресурсов компа жрет, я бы взял для этого bert
Гхм, это чего же w2v дофига ресурсов компа жрет?))) по моему совсем не жрет
источник

VD

Vlad Dub in Natural Language Processing
Dmitry
Гхм, это чего же w2v дофига ресурсов компа жрет?))) по моему совсем не жрет
оперативы сжирал у меня дофига)
источник

АМ

Александр Мамаев... in Natural Language Processing
Это если про обучение
источник

АМ

Александр Мамаев... in Natural Language Processing
Но на инференсе тоже бывает не получается хранить табличку векторов на гигабайт-два
источник

КМ

Кибер Медик... in Natural Language Processing
Александр Мамаев
Но кажется это пару десятков строчек поиска похожей подстроки по фонемам
в чате искал посты, но не нашел датасетов или тулзы, там менее активный чат =(
спасбио, за совет)
источник

АМ

Александр Мамаев... in Natural Language Processing
Bert для задачи тоже не подходит, поскольку это bidirectional LM, то есть не совсем language model в привычном понимании
источник

В

Владислав in Natural Language Processing
Добрый день! Ни у кого случайно не завалялись датасеты или стоп-слова/стоп-нграммы для проверки текстов на соблюдение правил Google AdSense ?
источник

IK

Ilya Kazakov in Natural Language Processing
Anton K.
а что будет тут более подходящим решением?
если вы про автокомплит на уровне слов, а не частей слов, и если у вас свой корпус есть, то самое простое по условным вероятностям: строим по корпусу частотный словарь n-грамм до 3ей, например. Ну и когда у вас введено 1 или 2 слова, то для них в частотном словаре найдется, соответственно, самая частотная 2 и 3- грамма, чей последний элемент и будет кандидатом в автокомплит.
источник

AK

Anton K. in Natural Language Processing
Ilya Kazakov
если вы про автокомплит на уровне слов, а не частей слов, и если у вас свой корпус есть, то самое простое по условным вероятностям: строим по корпусу частотный словарь n-грамм до 3ей, например. Ну и когда у вас введено 1 или 2 слова, то для них в частотном словаре найдется, соответственно, самая частотная 2 и 3- грамма, чей последний элемент и будет кандидатом в автокомплит.
частей в том числе
источник

AK

Anton K. in Natural Language Processing
корпус есть, обучим, надо только модель выбрать
источник

AK

Anton K. in Natural Language Processing
сейчас как раз на n-gram и сделано, но все хранится в памяти и не очень удобно
источник

YB

Yuri Baburov in Natural Language Processing
Владислав
Добрый день! Ни у кого случайно не завалялись датасеты или стоп-слова/стоп-нграммы для проверки текстов на соблюдение правил Google AdSense ?
Я просто словарём английского мата  пользовался.
источник

БД

Борис Добров... in Natural Language Processing
И зачем что- то имитировать?
Взять текст, его признести говорилкой и распознать.
При наличии нестандартной нечастотной лексики в исходном тексте ошибок будет выше крыши.
источник

КМ

Кибер Медик... in Natural Language Processing
Борис Добров
И зачем что- то имитировать?
Взять текст, его признести говорилкой и распознать.
При наличии нестандартной нечастотной лексики в исходном тексте ошибок будет выше крыши.
ну это надо говорилку подключать, потом текст распознавать (это уже две доп системы), у меня это побочная задача. Одно дело с текстом работать, другое дело со звуком
источник

БД

Борис Добров... in Natural Language Processing
А ничего, что иначе примеры могут быть неестественные, не соответсвующие природе задачи?
источник