Size: a a a

Python для анализа данных

2021 December 17

h

helby in Python для анализа данных
(df
.filter(.......)
.assign(new_column1=....., new_column2=......))
источник

M

Mikhail in Python для анализа данных
я вам больше скажу — в пандасе датафрейм это просто dict из колонок с вспомогательными методами
вы можете вообще выдрать колонку из датафрейма, что-то с ней сделать и вставить обратно. если она так же проиндексирована, датафрейм поймет
источник

AM

Aleksei Morozov in Python для анализа данных
не, мне как раз и не надо её вставлять обратно, я не хочу изменять исходный датафрей, хочу просто посмотреть в выводе что посчиталось и всё. лишние операции потом придётся делать по выбору только нужных колонок/удалению
источник

AM

Aleksei Morozov in Python для анализа данных
assign как раз то что нужно
источник

МК

Максим Коротченков... in Python для анализа данных
Ребят, привет, кто знает как корректно сконкатить датафрейм с фичами и разреженную матрицу TF-IDF?
Я почему- то боюсь, что при создании разреженной матрицы  tfidf объекты перемешиваются, и после чего горизонтальная конкатенация будет неверна? Может я ошибаюсь, кто сталкивался?
источник

MM

Makar Minchenko in Python для анализа данных
грубо говоря у вас же не совсем матрица – её можно представить  в виде датафрейма с номером строки, номером столбца и значением, соответственно, если у вас есть названия документов и названия термов вы можете подставить их в датафрейм, представляющий разряженную матрицу, и уже соединять два датафрейма обычным левым джоином
источник

МК

Максим Коротченков... in Python для анализа данных
В разреженной матрице я буду знать имена столбцов ( слова) а как туда поместить имя документа?
TiidfVectorizer не оставляет информации об имени документа, или это можно настроить, чтобы он оставлял такой столбец ?
источник

MM

Makar Minchenko in Python для анализа данных
это же просто индексы будут, попробуйте это проверить
источник

МК

Максим Коротченков... in Python для анализа данных
Вот я и сомневаюсь, индексы в новой разреженной матрице также будут новыми, никак не связаны со старой таблицей объектов?
источник

MM

Makar Minchenko in Python для анализа данных
индексы для документов должны сохраняться; можете посмотреть на аргумент vocubalary в tfidfvectorizer, если вам нужно это проверить
источник

PZ

Pavel Zheltouhov in Python для анализа данных
вроде там есть scipy.sparse.hstack и это все объединить можно в один мешок
источник

МК

Максим Коротченков... in Python для анализа данных
Все верно, есть такое, но тут вопрос не мешаются ли объекты при создании tfidf  матрицы, если не мешаются, тогда и hstack можно использовать
источник

МК

Максим Коротченков... in Python для анализа данных
Vocabulary разве не для всего корпуса строится? Он же не для одного текста
источник

PZ

Pavel Zheltouhov in Python для анализа данных
я правильно понял,что  вы собираетесь к мешку слов добавить еще табличные признаки и дальше попробовать стандартные алгоритмы классификации?
источник

МК

Максим Коротченков... in Python для анализа данных
Да, верно
источник

PZ

Pavel Zheltouhov in Python для анализа данных
ну тогда не понятно в чем вопрос?
после sparse.hstack вы получите разреженную матрицу, но часть данных не разрежена. а тип данных все равно sparse.
источник

МК

Максим Коротченков... in Python для анализа данных
У меня будет 2 источника данных- датафрейм с количественными и категориальными признаками и sparce matrix tfidf, я боюсь, что при обучении tfidfvectorizer ( когда создается разреженная матрица tfidf)объекты перемешаются и тогда первая строчка в датафрейме не будет соответствовать первой строке в sparce matrix tfidf, и hstack будет некорректен
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Да почему перемешаются ? просто порядок признаков сохраняйте. Один и тот же CountVectorizer используйте для разных текстов.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Ну напишите потом как оно вообще.
Просто мне казалось с короткими текстами это все плохо работает. Много скрытых признаков содержится в значении, а не в самом присутствии слов в тексте.
источник

МК

Максим Коротченков... in Python для анализа данных
Да, хорошо, спасибо всем за помощь!)
источник