Size: a a a

Natural Language Processing

2019 November 24

VI

Vitaly Ivanin in Natural Language Processing
Это конечно прикольно, но люди вроде как за меня уже все сделали, есть датасеты твиттера и реддита. Но я не могу найти, где их в правильном формате скачать и есть ли для этого репозитории.

У меня задача сферическая, препод скинул csv нескольких англоязычных чатов и сказал в духе: " у меня есть гипотеза, что многие пары реплик могут быть представлены в 90-95% случаев лишь ограниченным числом вариантов компонентов. пример "ты где?" - "в метро", "на работе", "рядом" и пр. "сколько это стоит?" "%сумма%"? "недорого", и т.п. это называется conversation analysis. Попробуй вычленить долю таких структур ограниченной вариативности"

Я почитал туториал с недавней конференции, увидел там несколько моделей, которые теоретически могут это делать. Но т.к. они не тривиальные, я пока с ними не разобрался, и решил обучить простой классификатор на косинусном расстоянии и энкодере используя другой датасет
источник

VI

Vitaly Ivanin in Natural Language Processing
Вот, тут чуваки примерно это делают.
https://github.com/PolyAI-LDN/conversational-datasets/blob/master/README.md

Пока буду пытаться адаптировать их, но если кто подскажет более простой ридер датасетов буду признателен)
источник

D

Dmitry in Natural Language Processing
mel kaye
telegram-export ✨  ✨
Да просто через менюху в чате
источник

m

mel kaye in Natural Language Processing
Dmitry
Да просто через менюху в чате
источник

D

Dmitry in Natural Language Processing
Там HTML файлы с историей получаются, их легко спарсить
источник

m

mel kaye in Natural Language Processing
На десктопе?
источник

D

Dmitry in Natural Language Processing
mel kaye
На десктопе?
Да
источник

m

mel kaye in Natural Language Processing
Dmitry
Там HTML файлы с историей получаются, их легко спарсить
Ну телеграм-экспорт парсит в sqlite
источник

D

Dmitry in Natural Language Processing
Dmitry
Там HTML файлы с историей получаются, их легко спарсить
Там простой формат, без особой вложенности
источник

РД

Роман Друзык in Natural Language Processing
Подскажите, пожалуйста
Вот есть у меня столбец с наименованием населенных пунктов в виде ['поселок Мурино', 'дервня Кудрово', 'город Петергоф'] и тд.
Хочу схлопнуть значения по названиям населенных пунктов, лемматизировать не получается, возвращает "муриный" "кудровый".
как можно было бы через регулярные выражения вырезать все слова начинающиеся с маленькой буквы и оставить только слова начинающиеся с заглавной буквы?
источник

D

Dmitry in Natural Language Processing
Роман Друзык
Подскажите, пожалуйста
Вот есть у меня столбец с наименованием населенных пунктов в виде ['поселок Мурино', 'дервня Кудрово', 'город Петергоф'] и тд.
Хочу схлопнуть значения по названиям населенных пунктов, лемматизировать не получается, возвращает "муриный" "кудровый".
как можно было бы через регулярные выражения вырезать все слова начинающиеся с маленькой буквы и оставить только слова начинающиеся с заглавной буквы?
Так по моему это ж просто.
источник

D

Dmitry in Natural Language Processing
Регулярка гуглится за минуту
источник

РД

Роман Друзык in Natural Language Processing
Dmitry
Регулярка гуглится за минуту
Когда есть опыт, многие вещи кажутся простыми, а я в начале пути:) погуглил много, к сожалению, не смог разобраться, поэтому и обращаюсь за помощью
источник

D

Dmitry in Natural Language Processing
Сегодня до компа доберусь посмотрю, если раньше никто не ответит
источник

РД

Роман Друзык in Natural Language Processing
Dmitry
Сегодня до компа доберусь посмотрю, если раньше никто не ответит
Спасибо, буду очень признателен
источник

D

Dmitry in Natural Language Processing
Регулярки до сих пор хорошо решают многие проблемы, хотя это и старое изобретение
источник

SZ

Sergey Zakharov in Natural Language Processing
А почему нужны именно регулярки? Судя по примерам, последнее слово только нужно.
источник

D

Dmitry in Natural Language Processing
Sergey Zakharov
А почему нужны именно регулярки? Судя по примерам, последнее слово только нужно.
Похоже на то
источник

SZ

Sergey Zakharov in Natural Language Processing
Для регулярок вот хороший ресурс:
https://regex101.com/
Там можно проверить, что будет с текстом, если его пропустить через регулярку. И справочник есть в правом нижнем углу.
источник

SZ

Sergey Zakharov in Natural Language Processing
для этого конкретного случая регулярка должна быть примерно такая:
[А-ЯЁ][а-яё]+
источник