Телеграмм чат группы pydata

Size: a a a

Python для анализа данных

2683 membersпожаловаться на группу

2021 December 17

helby in Python для анализа данных

(df
.filter(.......)
.assign(new_column1=....., new_column2=......))

источник

10:09пожаловаться #1

Mikhail in Python для анализа данных

я вам больше скажу — в пандасе датафрейм это просто dict из колонок с вспомогательными методами
вы можете вообще выдрать колонку из датафрейма, что-то с ней сделать и вставить обратно. если она так же проиндексирована, датафрейм поймет

источник

10:19пожаловаться #2

Aleksei Morozov in Python для анализа данных

не, мне как раз и не надо её вставлять обратно, я не хочу изменять исходный датафрей, хочу просто посмотреть в выводе что посчиталось и всё. лишние операции потом придётся делать по выбору только нужных колонок/удалению

источник

10:42пожаловаться #3

Aleksei Morozov in Python для анализа данных

assign как раз то что нужно

источник

10:42пожаловаться #4

МК

Максим Коротченков... in Python для анализа данных

Ребят, привет, кто знает как корректно сконкатить датафрейм с фичами и разреженную матрицу TF-IDF?
Я почему- то боюсь, что при создании разреженной матрицы tfidf объекты перемешиваются, и после чего горизонтальная конкатенация будет неверна? Может я ошибаюсь, кто сталкивался?

источник

10:53пожаловаться #5

Makar Minchenko in Python для анализа данных

грубо говоря у вас же не совсем матрица – её можно представить в виде датафрейма с номером строки, номером столбца и значением, соответственно, если у вас есть названия документов и названия термов вы можете подставить их в датафрейм, представляющий разряженную матрицу, и уже соединять два датафрейма обычным левым джоином

источник

11:13пожаловаться #6

МК

Максим Коротченков... in Python для анализа данных

В разреженной матрице я буду знать имена столбцов ( слова) а как туда поместить имя документа?
TiidfVectorizer не оставляет информации об имени документа, или это можно настроить, чтобы он оставлял такой столбец ?

источник

11:21пожаловаться #7

Makar Minchenko in Python для анализа данных

это же просто индексы будут, попробуйте это проверить

источник

11:22пожаловаться #8

МК

Максим Коротченков... in Python для анализа данных

Вот я и сомневаюсь, индексы в новой разреженной матрице также будут новыми, никак не связаны со старой таблицей объектов?

источник

11:24пожаловаться #9

Makar Minchenko in Python для анализа данных

индексы для документов должны сохраняться; можете посмотреть на аргумент vocubalary в tfidfvectorizer, если вам нужно это проверить

источник

11:30пожаловаться #10

Pavel Zheltouhov in Python для анализа данных

вроде там есть scipy.sparse.hstack и это все объединить можно в один мешок

источник

11:33пожаловаться #11

МК

Максим Коротченков... in Python для анализа данных

Все верно, есть такое, но тут вопрос не мешаются ли объекты при создании tfidf матрицы, если не мешаются, тогда и hstack можно использовать

источник

11:35пожаловаться #12

МК

Максим Коротченков... in Python для анализа данных

Vocabulary разве не для всего корпуса строится? Он же не для одного текста

источник

11:35пожаловаться #13

Pavel Zheltouhov in Python для анализа данных

я правильно понял,что вы собираетесь к мешку слов добавить еще табличные признаки и дальше попробовать стандартные алгоритмы классификации?

источник

11:36пожаловаться #14

МК

Максим Коротченков... in Python для анализа данных

Да, верно

источник

11:37пожаловаться #15

Pavel Zheltouhov in Python для анализа данных

ну тогда не понятно в чем вопрос?
после sparse.hstack вы получите разреженную матрицу, но часть данных не разрежена. а тип данных все равно sparse.

источник

11:38пожаловаться #16

МК

Максим Коротченков... in Python для анализа данных

У меня будет 2 источника данных- датафрейм с количественными и категориальными признаками и sparce matrix tfidf, я боюсь, что при обучении tfidfvectorizer ( когда создается разреженная матрица tfidf)объекты перемешаются и тогда первая строчка в датафрейме не будет соответствовать первой строке в sparce matrix tfidf, и hstack будет некорректен

источник

11:42пожаловаться #17

Pavel Zheltouhov in Python для анализа данных

Да почему перемешаются ? просто порядок признаков сохраняйте. Один и тот же CountVectorizer используйте для разных текстов.

источник

11:52пожаловаться #18

Pavel Zheltouhov in Python для анализа данных

Ну напишите потом как оно вообще.
Просто мне казалось с короткими текстами это все плохо работает. Много скрытых признаков содержится в значении, а не в самом присутствии слов в тексте.

источник

11:56пожаловаться #19

МК

Максим Коротченков... in Python для анализа данных

Да, хорошо, спасибо всем за помощь!)

источник

11:57пожаловаться #20