Телеграмм чат группы pydata

Чат, привет!
Были ли у кого-нибудь кейсы по распознаванию текстов отзывов?
Пример: есть товар X, его купили и потом написали отрицательный отзыв.
Надо написать скрипт, который по тексту распознает что не так с товаром или доставкой: упаковка/функции/долгая доставка/поломка и т.д.

Если кто-то делал нечто похожее, поделитесь плз

источник

13:50пожаловаться #7

PZ

Pavel Zheltouhov in Python для анализа данных

Andrey Matvienko

Чат, привет!
Были ли у кого-нибудь кейсы по распознаванию текстов отзывов?
Пример: есть товар X, его купили и потом написали отрицательный отзыв.
Надо написать скрипт, который по тексту распознает что не так с товаром или доставкой: упаковка/функции/долгая доставка/поломка и т.д.

Если кто-то делал нечто похожее, поделитесь плз

у пиратов по NLP 2 подробнейших книжки. на русском. И модельки можно нагуглить и скачать.

помогло? (разве что морально)

источник

16:52пожаловаться #8

AM

Andrey Matvienko in Python для анализа данных

Pavel Zheltouhov

у пиратов по NLP 2 подробнейших книжки. на русском. И модельки можно нагуглить и скачать.

помогло? (разве что морально)

ну пока морально, а теперь читать надо)

источник

16:52пожаловаться #9

PZ

Pavel Zheltouhov in Python для анализа данных

предлагаю подождать когда яндекс за нас все напишет. а там через API раз-раз.

источник

16:52пожаловаться #10

ND

Natalya Davydova in Python для анализа данных

Привет! Подскажите, пожалуйста, есть ли какие-то другие варианты для анализа влияния категориального фактора на количественный, кроме как построить ящики с усами для каждого значения категориального и сравнить?

источник

18:43пожаловаться #11

R

Ruslan in Python для анализа данных

Не очень понятно по формулировке вопроса. Что именно вы хотите получить от анализа?

источник

18:53пожаловаться #12

R

Ruslan in Python для анализа данных

Анализ ради анализа или есть конкретная цель ?

источник

18:53пожаловаться #13

ND

Natalya Davydova in Python для анализа данных

Есть показатель с вариантами типа "далеко", "близко", "на среднем расстоянии". И есть предположение, что от него зависит измеримый количественный показатель. Мне нужно проверить данную гипотезу.

источник

18:56пожаловаться #14

АМ

Алексей Макаров... in Python для анализа данных

Andrey Matvienko

Чат, привет!
Были ли у кого-нибудь кейсы по распознаванию текстов отзывов?
Пример: есть товар X, его купили и потом написали отрицательный отзыв.
Надо написать скрипт, который по тексту распознает что не так с товаром или доставкой: упаковка/функции/долгая доставка/поломка и т.д.

Если кто-то делал нечто похожее, поделитесь плз

Я бы тут вообще начал с какого-то простого прототипа, опирающегося на наличие ключевых слов в тексте. Это позволит изначально оценить жизнеспособность идеи классифицировать отзывы, потому что вряд ли алгоритм классификации через ML будет с существенно превышающей точностью работать, если не будет работать какая-то простая разметка. По крайней мере, по своему опыту сужу

Ну и потом эта классификация по вхождению будет хорошим началом, чтобы формировать обучающие выборки

Если вы хотите не классификацию делать, а кластеризацию, когда вы не задаёте сначала обучающие выборки, то я бы посмотрел в сторону LDA для начала. Вот статья с примером реализации

Хабр

Запускаем LDA в реальном мире. Подробное руководство

Предисловие На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то,...

источник

19:03пожаловаться #15

AM

Andrey Matvienko in Python для анализа данных

Алексей Макаров

Я бы тут вообще начал с какого-то простого прототипа, опирающегося на наличие ключевых слов в тексте. Это позволит изначально оценить жизнеспособность идеи классифицировать отзывы, потому что вряд ли алгоритм классификации через ML будет с существенно превышающей точностью работать, если не будет работать какая-то простая разметка. По крайней мере, по своему опыту сужу

Ну и потом эта классификация по вхождению будет хорошим началом, чтобы формировать обучающие выборки

Если вы хотите не классификацию делать, а кластеризацию, когда вы не задаёте сначала обучающие выборки, то я бы посмотрел в сторону LDA для начала. Вот статья с примером реализации

Хабр

Запускаем LDA в реальном мире. Подробное руководство

Предисловие На просторах интернета имеется множество туториалов объясняющих принцип работы LDA(Latent Dirichlet Allocation — Латентное размещение Дирихле) и то,...

Сейчас так и есть, словарик, по которому цикл бегает и если ключ в тексте есть, то алертит значением

источник

19:05пожаловаться #16

AM

Andrey Matvienko in Python для анализа данных

За статью спасибо, изучу

источник

19:05пожаловаться #17

АМ

Алексей Макаров... in Python для анализа данных

Andrey Matvienko

Сейчас так и есть, словарик, по которому цикл бегает и если ключ в тексте есть, то алертит значением

Ну вот если сейчас всё работает сравнительно неплохо и позволяет какие-то решения принимать, то тогда можно попробовать уже с LDA. Посмотреть что будет получатся

А дальше можно и на какие-то word embedding модели посмотреть, например, word2vec. Вот ещё статейка, где можно посмотреть примеры topic modelling с использованием word2vec

Medium

Topic Modelling in Python with NLTK and Gensim

In this post, we will learn how to identity which topic is discussed in a document, called topic modelling. In particular, we will cover…

источник

19:08пожаловаться #18

AM

Andrey Matvienko in Python для анализа данных

Алексей Макаров

Ну вот если сейчас всё работает сравнительно неплохо и позволяет какие-то решения принимать, то тогда можно попробовать уже с LDA. Посмотреть что будет получатся

А дальше можно и на какие-то word embedding модели посмотреть, например, word2vec. Вот ещё статейка, где можно посмотреть примеры topic modelling с использованием word2vec

Medium

Topic Modelling in Python with NLTK and Gensim

In this post, we will learn how to identity which topic is discussed in a document, called topic modelling. In particular, we will cover…

Спасибо большое)

источник

19:09пожаловаться #19

АМ

Алексей Макаров... in Python для анализа данных

Andrey Matvienko

Спасибо большое)

👍🏻

источник

19:14пожаловаться #20