Телеграмм чат группы natural_language_processing страница 483

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 November 24

VI

Vitaly Ivanin in Natural Language Processing

Это конечно прикольно, но люди вроде как за меня уже все сделали, есть датасеты твиттера и реддита. Но я не могу найти, где их в правильном формате скачать и есть ли для этого репозитории.

У меня задача сферическая, препод скинул csv нескольких англоязычных чатов и сказал в духе: " у меня есть гипотеза, что многие пары реплик могут быть представлены в 90-95% случаев лишь ограниченным числом вариантов компонентов. пример "ты где?" - "в метро", "на работе", "рядом" и пр. "сколько это стоит?" "%сумма%"? "недорого", и т.п. это называется conversation analysis. Попробуй вычленить долю таких структур ограниченной вариативности"

Я почитал туториал с недавней конференции, увидел там несколько моделей, которые теоретически могут это делать. Но т.к. они не тривиальные, я пока с ними не разобрался, и решил обучить простой классификатор на косинусном расстоянии и энкодере используя другой датасет

источник

01:25пожаловаться #1

VI

Vitaly Ivanin in Natural Language Processing

Вот, тут чуваки примерно это делают.
https://github.com/PolyAI-LDN/conversational-datasets/blob/master/README.md

Пока буду пытаться адаптировать их, но если кто подскажет более простой ридер датасетов буду признателен)

PolyAI-LDN/conversational-datasets

Large datasets for conversational AI. Contribute to PolyAI-LDN/conversational-datasets development by creating an account on GitHub.

источник

01:27пожаловаться #2

D

Dmitry in Natural Language Processing

telegram-export ✨ ✨

Да просто через менюху в чате

источник

01:28пожаловаться #3

m

mel kaye in Natural Language Processing

Да просто через менюху в чате

источник

01:28пожаловаться #4

D

Dmitry in Natural Language Processing

Там HTML файлы с историей получаются, их легко спарсить

источник

01:28пожаловаться #5

m

mel kaye in Natural Language Processing

На десктопе?

источник

01:28пожаловаться #6

D

Dmitry in Natural Language Processing

На десктопе?

Да

источник

01:28пожаловаться #7

m

mel kaye in Natural Language Processing

Там HTML файлы с историей получаются, их легко спарсить

Ну телеграм-экспорт парсит в sqlite

источник

01:29пожаловаться #8

D

Dmitry in Natural Language Processing

Там HTML файлы с историей получаются, их легко спарсить

Там простой формат, без особой вложенности

источник

01:29пожаловаться #9

РД

Роман Друзык in Natural Language Processing

Подскажите, пожалуйста
Вот есть у меня столбец с наименованием населенных пунктов в виде ['поселок Мурино', 'дервня Кудрово', 'город Петергоф'] и тд.
Хочу схлопнуть значения по названиям населенных пунктов, лемматизировать не получается, возвращает "муриный" "кудровый".
как можно было бы через регулярные выражения вырезать все слова начинающиеся с маленькой буквы и оставить только слова начинающиеся с заглавной буквы?

источник

03:20пожаловаться #10

D

Dmitry in Natural Language Processing

Роман Друзык

Подскажите, пожалуйста
Вот есть у меня столбец с наименованием населенных пунктов в виде ['поселок Мурино', 'дервня Кудрово', 'город Петергоф'] и тд.
Хочу схлопнуть значения по названиям населенных пунктов, лемматизировать не получается, возвращает "муриный" "кудровый".
как можно было бы через регулярные выражения вырезать все слова начинающиеся с маленькой буквы и оставить только слова начинающиеся с заглавной буквы?

Так по моему это ж просто.

источник

03:26пожаловаться #11

D

Dmitry in Natural Language Processing

Регулярка гуглится за минуту

источник

03:26пожаловаться #12

РД

Роман Друзык in Natural Language Processing

Регулярка гуглится за минуту

Когда есть опыт, многие вещи кажутся простыми, а я в начале пути:) погуглил много, к сожалению, не смог разобраться, поэтому и обращаюсь за помощью

источник

03:29пожаловаться #13

D

Dmitry in Natural Language Processing

Сегодня до компа доберусь посмотрю, если раньше никто не ответит

источник

03:31пожаловаться #14

РД

Роман Друзык in Natural Language Processing

Сегодня до компа доберусь посмотрю, если раньше никто не ответит

Спасибо, буду очень признателен

источник

03:37пожаловаться #15

D

Dmitry in Natural Language Processing

Регулярки до сих пор хорошо решают многие проблемы, хотя это и старое изобретение

источник

03:38пожаловаться #16

SZ

Sergey Zakharov in Natural Language Processing

А почему нужны именно регулярки? Судя по примерам, последнее слово только нужно.

источник

03:44пожаловаться #17

D

Dmitry in Natural Language Processing

Sergey Zakharov

А почему нужны именно регулярки? Судя по примерам, последнее слово только нужно.

Похоже на то

источник

03:45пожаловаться #18

SZ

Sergey Zakharov in Natural Language Processing

Для регулярок вот хороший ресурс:
https://regex101.com/
Там можно проверить, что будет с текстом, если его пропустить через регулярку. И справочник есть в правом нижнем углу.

Regex101 - online regex editor and debugger

Regex101 allows you to create, debug, test and have your expressions explained for PHP, PCRE, Python, Golang and JavaScript. The website also features a community where you can share useful expressions.

источник

03:46пожаловаться #19

SZ

Sergey Zakharov in Natural Language Processing

для этого конкретного случая регулярка должна быть примерно такая:
[А-ЯЁ][а-яё]+

источник

03:51пожаловаться #20