Телеграмм чат группы natural_language

2021 March 31

N

Natalia in Natural Language Processing

а почему вы думаете, что для этого лучше подойдёт именно spacy?

источник

10:39пожаловаться #1

N

Natalia in Natural Language Processing

или не для русского языка нужно, но чтоб тьюториал на русском?

источник

10:39пожаловаться #2

A

Alexander in Natural Language Processing

Анализировать нужно будет именно русскоязычные тексты.
А почему Спайси? Ну, потому что я бегло посмотрел возможности и "порог входа" на примере SpaCy, Natasha и Google-сервиса и подумал, что мне легче будет со SpaCy.

Опыта у меня нет никакого в этом деле (если не считать нескольких опытов в работе с томита-парсером от яндекса) и нахожусь я в самом начале пути. Поэтому, если знающие люди скажут, что Наташа лучше, а, главное, проще в освоении, то могу и на Наташу переключиться.

Т.е. инструмент не принципиален. А задача примерно такая (всё для русского языка): 1) Распознать именованные сущности (топонимы, геообъекты); 2) Найти "географическую связь" между ними, если есть.

Например "Новое шоссе соединит Солнцево и Бутово." -> 1) Распознаем в тексте "Солнцево", "Бутово"; 2) Обнаруживаем "географическую связь" между ними "шоссе соединит".
Насколько я понимаю, задача 1) должна относительно легко решаться существующими библиотеками "из коробки", без дообучения. А вот задача 2) это как раз то, что они не умеют делать. Я думаю, что задачу 2) можно решить с помощью rule-based подхода.

источник

11:01пожаловаться #3

VM

Victor Maslov in Natural Language Processing

Max Kuznetsov

https://m.habr.com/ru/company/icl_services/blog/548244/ там есть ссылка, которая поломана, но возможно ее можно "починить"

Хабр

DialoGPT на русском

Кадр из фильма "Я, робот"Всем привет. В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и...

я там вижу только какой-то дамп пикабу -- это имеешь в виду?

источник

11:25пожаловаться #4

MK

Max Kuznetsov in Natural Language Processing

Victor Maslov

я там вижу только какой-то дамп пикабу -- это имеешь в виду?

Ну да, всё как ты просил. Мопед не мой.

источник

11:27пожаловаться #5

VM

Victor Maslov in Natural Language Processing

спасибо
только мне некуда столько распаковывать ..D

источник

11:34пожаловаться #6

MK

Max Kuznetsov in Natural Language Processing

Victor Maslov

спасибо
только мне некуда столько распаковывать ..D

Тогда бери обученную модель из статьи

источник

11:43пожаловаться #7

VM

Victor Maslov in Natural Language Processing

я программист
мне не нужна готовая модель

источник

11:45пожаловаться #8

2021 April 01

РМ

Роман Мартынюк... in Natural Language Processing

Всем привет. Кто-нибудь знает библиотеки на питоне, чтобы, например, из слова «1-го» сделать «первого»?

источник

09:27пожаловаться #9

МП

Михаил Притугин... in Natural Language Processing

Роман Мартынюк

Всем привет. Кто-нибудь знает библиотеки на питоне, чтобы, например, из слова «1-го» сделать «первого»?

re

источник

09:27пожаловаться #10

AK

Alexander Kukushkin in Natural Language Processing

@banofbot

источник

09:39пожаловаться #11

B

Banof in Natural Language Processing

🔫 @agusikcomua1 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@alexkuk, @Vladyka_morey, @alexb6949, @dyermakov, @dzhkn42
При поддержке Золота Бородача

источник

09:39пожаловаться #12

AK

Anton K. in Natural Language Processing

всем добрый день! Правильно ли я понимаю, что GPT можно использовать для autocomplete? Предсказывать следующий токен по предыдущим

источник

11:12пожаловаться #13

IK

Ilya Kazakov in Natural Language Processing

Anton K.

всем добрый день! Правильно ли я понимаю, что GPT можно использовать для autocomplete? Предсказывать следующий токен по предыдущим

Можно... Но это, конечно, из пушки по воробьям.

источник

13:16пожаловаться #14

VM

Victor Maslov in Natural Language Processing

я, кстати, в поисках чат-логов нагуглил такие темы на форумах

https://radiotech.kz/threads/arxiv-chata.312/
https://billwill.ru/threads/arxiv-chata-2.586/

судя по урлам, это какой-то стандартный форумный плагин, так что можно нагуглить еще больше

radiotech.kz

Архив чата

Здесь у нас будет архив нашего чата.

источник

13:25пожаловаться #15

AK

Anton K. in Natural Language Processing

Ilya Kazakov

Можно... Но это, конечно, из пушки по воробьям.

а что будет тут более подходящим решением?

источник

13:48пожаловаться #16

КМ

Кибер Медик... in Natural Language Processing

Anton K.

а что будет тут более подходящим решением?

word2vec, например, погуглите как устроено предсказание слова в гугл-клавиатуре, GPT и прочие, обычно для генирации текста используют, ради одного слова - overkill

источник

13:49пожаловаться #17

КМ

Кибер Медик... in Natural Language Processing

Всем привет) нет у кого-нибудь в закромах библиотеки/репы/скрипта, который бы коверкал предложение, например:

1. мне бы в печку дров закинуть -> мне бы выпечку дров закинуть
2. возьми щиты в бой -> возьми ищи ты в бой

Превращение двух-трех слов в одно, одного слова в два-три, как-то так)

источник

13:55пожаловаться #18

АМ

Александр Мамаев... in Natural Language Processing

Кибер Медик

Всем привет) нет у кого-нибудь в закромах библиотеки/репы/скрипта, который бы коверкал предложение, например:

1. мне бы в печку дров закинуть -> мне бы выпечку дров закинуть
2. возьми щиты в бой -> возьми ищи ты в бой

Превращение двух-трех слов в одно, одного слова в два-три, как-то так)

Звучит как левенштейн по фонемам

источник

13:56пожаловаться #19

VD

Vlad Dub in Natural Language Processing

Кибер Медик

Всем привет) нет у кого-нибудь в закромах библиотеки/репы/скрипта, который бы коверкал предложение, например:

1. мне бы в печку дров закинуть -> мне бы выпечку дров закинуть
2. возьми щиты в бой -> возьми ищи ты в бой

Превращение двух-трех слов в одно, одного слова в два-три, как-то так)

в переводчике туда сюда погонять

источник

13:56пожаловаться #20