Size: a a a

Python для анализа данных

2021 May 05

AE

Artyom Evgenievich in Python для анализа данных
источник

T

Tishka17 in Python для анализа данных
Ещё раз: нужен не vs, а build tools
источник

AE

Artyom Evgenievich in Python для анализа данных
Да, спасибо большое! Почитал и разобрался в чем разница и почему выдало ошибку.
источник

СИ

Сергей Ильин... in Python для анализа данных
Добрый день. Задача кластеризации текстов.

Датасет -  2000 объектов с текстовым описанием.
Текстовое описание - довольно короткое, десяток предложений.
напр., объект "береза" (с описанием) и объект "сосна". Хочется, чтобы они семантически попадали в кластер "деревья", даже при условии, что слово "дерево" не встретится ни там, ни там.
Не все объекты в датасете являются деревьями.

в ODS подсказали, что лучше всего это делать через BERT (LDA меня не спасет по их словам), но хочется еще мнений.
Или ткнули в верном направлении и мне смотреть в сторону предобученных эмбеддингов?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
мне тоже LDA показался не очень хорошим на коротких текстах. как будто недостаточно "числового смысла"
источник

СИ

Сергей Ильин... in Python для анализа данных
ну тут еще проблема в том, что я не уууверен, что мое "центральное слово" (название кластера) встретится в этой десятке предложений
источник

PZ

Pavel Zheltouhov in Python для анализа данных
ну он же стохастический и поэтому можно просто тыкать пока не понравится
источник

СИ

Сергей Ильин... in Python для анализа данных
?? не понял
источник

PZ

Pavel Zheltouhov in Python для анализа данных
результат работы LDA как алгоритма зависит от генератора случайных чисел.
поэтому, если результат трудно интерпретировать, нужно запустить еще и еще.

вообще-то, исходя из описания данных, они вам разумно посоветовали не тратить на LDA время.
источник

СИ

Сергей Ильин... in Python для анализа данных
Thx
источник
2021 May 06

AK

Alex K in Python для анализа данных
источник

AK

Alex K in Python для анализа данных
Народ, чо т мозгов не хватает. Как я могу получить, чтоб для каждой группы в заказе были посчитаны кол-во других. Т.е надо понять что c чем покупают.

РЕзультат дб
group0 group0 5 шт
group0 group1 10шт
group1 group0 10шт
group1 group1 3шт

Как-то так пытаюсь, но получается ерунда
sales[sales.index.duplicated()].groupby('GROUP')['GROUP'].agg('count')
источник

AK

Aleksei Komissarov in Python для анализа данных
Где на скрине group0 и не group1?
источник

G

George in Python для анализа данных
.groupby([‘group0’,’group1’]).agg(…) пробовали?
источник

AK

Alex K in Python для анализа данных
вот в маленьком квадрате
источник

AK

Aleksei Komissarov in Python для анализа данных
В маленьком квадрате 1 столбец
источник

AK

Alex K in Python для анализа данных
у меня же всего один столбец по которому группирую
источник

AK

Alex K in Python для анализа данных
блин, видимо зреново сформулировал
источник

AK

Alex K in Python для анализа данных
у меня есть один столбец. И по нему надо получить такую инфу по каждому заказу, в котором больше одного товара

group0 group0 5 шт
group0 group1 10шт
group1 group0 10шт
group1 group1 3шт
источник

AK

Alex K in Python для анализа данных
group0 и не group1 это я просто например написал, это не названия столбцов. Это значения столбца group
источник