Телеграмм чат группы pydata

Добрый день. Задача кластеризации текстов.

Датасет - 2000 объектов с текстовым описанием.
Текстовое описание - довольно короткое, десяток предложений.
напр., объект "береза" (с описанием) и объект "сосна". Хочется, чтобы они семантически попадали в кластер "деревья", даже при условии, что слово "дерево" не встретится ни там, ни там.
Не все объекты в датасете являются деревьями.

в ODS подсказали, что лучше всего это делать через BERT (LDA меня не спасет по их словам), но хочется еще мнений.
Или ткнули в верном направлении и мне смотреть в сторону предобученных эмбеддингов?

источник

12:24пожаловаться #4

Pavel Zheltouhov in Python для анализа данных

мне тоже LDA показался не очень хорошим на коротких текстах. как будто недостаточно "числового смысла"

источник

12:44пожаловаться #5

СИ

Сергей Ильин... in Python для анализа данных

ну тут еще проблема в том, что я не уууверен, что мое "центральное слово" (название кластера) встретится в этой десятке предложений

источник

12:45пожаловаться #6

Pavel Zheltouhov in Python для анализа данных

ну он же стохастический и поэтому можно просто тыкать пока не понравится

источник

12:49пожаловаться #7

СИ

Сергей Ильин... in Python для анализа данных

?? не понял

источник

12:51пожаловаться #8

Pavel Zheltouhov in Python для анализа данных

результат работы LDA как алгоритма зависит от генератора случайных чисел.
поэтому, если результат трудно интерпретировать, нужно запустить еще и еще.

вообще-то, исходя из описания данных, они вам разумно посоветовали не тратить на LDA время.

источник

12:59пожаловаться #9

СИ

Сергей Ильин... in Python для анализа данных

Thx

источник

15:13пожаловаться #10

2021 May 06

Alex K in Python для анализа данных

источник

16:59пожаловаться #11

Alex K in Python для анализа данных

Народ, чо т мозгов не хватает. Как я могу получить, чтоб для каждой группы в заказе были посчитаны кол-во других. Т.е надо понять что c чем покупают.

РЕзультат дб
group0 group0 5 шт
group0 group1 10шт
group1 group0 10шт
group1 group1 3шт

Как-то так пытаюсь, но получается ерунда
sales[sales.index.duplicated()].groupby('GROUP')['GROUP'].agg('count')

источник

17:00пожаловаться #12

Aleksei Komissarov in Python для анализа данных

Где на скрине group0 и не group1?

источник

17:02пожаловаться #13

George in Python для анализа данных

.groupby([‘group0’,’group1’]).agg(…) пробовали?

источник

17:03пожаловаться #14

Alex K in Python для анализа данных

вот в маленьком квадрате

источник

17:05пожаловаться #15

Aleksei Komissarov in Python для анализа данных

В маленьком квадрате 1 столбец

источник

17:05пожаловаться #16

Alex K in Python для анализа данных

у меня же всего один столбец по которому группирую

источник

17:05пожаловаться #17

Alex K in Python для анализа данных

блин, видимо зреново сформулировал

источник

17:06пожаловаться #18

Alex K in Python для анализа данных

у меня есть один столбец. И по нему надо получить такую инфу по каждому заказу, в котором больше одного товара

group0 group0 5 шт
group0 group1 10шт
group1 group0 10шт
group1 group1 3шт

источник

17:07пожаловаться #19

Alex K in Python для анализа данных

group0 и не group1 это я просто например написал, это не названия столбцов. Это значения столбца group

источник

17:09пожаловаться #20