Телеграмм чат группы pydata

2020 December 05

AB

Anatolii Balakiriev in Python для анализа данных

@ax_makarov 👆🏻

источник

19:16пожаловаться #1

2020 December 06

YP

Yuriy Prudnikov in Python для анализа данных

Салют! Есть таблица с двумя полями value и group, хочу получить также поля sum и count внутри каждой группы (по сути оконные функции в sql). Делаю group by и джоиню с изначальной таблицей. В целом работает, но выдает варнинги из за того, что при группировке получается такая таблица (которую я джоиню)

источник

19:24пожаловаться #2

YP

Yuriy Prudnikov in Python для анализа данных

Собственно, вопросы:
1. Как при нескольких агрегатных функциях получить таблицу со столбцами group, value, mean, count (где mean и count не будут под value)?
2. Возможно, есть изначально более правильный способ, чем мержить сгруппированную таблицу?

источник

19:26пожаловаться #3

AO

Andrey Ostrovsky in Python для анализа данных

transform

источник

19:29пожаловаться #4

AO

Andrey Ostrovsky in Python для анализа данных

https://pbpython.com/pandas_transform.html

Pbpython

Understanding the Transform Function in Pandas

The transform function in pandas can be a useful tool for combining and analyzing data.

источник

19:30пожаловаться #5

YP

Yuriy Prudnikov in Python для анализа данных

Круто, спасибо!

источник

19:42пожаловаться #6

2020 December 07

IS

Ivan Samorukov in Python для анализа данных

Здравствуйте! Мне надо оставить в датафрейме только значения, у которых в индексе есть XX:00:00 или XX:30:00, то есть значения через каждые 30 минут. Я создаю отдельный датафрейм с нужной мне периодичностью (30 минут), затем применяю update. В итоге все вроде бы ок. Но что-то мне подсказывает, что это немного кривое решение. Подскажите, пожалуйста, есть ли встроенные возможности для данной задачи. Поиск по интернетам не помог, либо я не умею задавать вопросы)

источник

05:30пожаловаться #7

YP

Yuriy Prudnikov in Python для анализа данных

Ivan Samorukov

Здравствуйте! Мне надо оставить в датафрейме только значения, у которых в индексе есть XX:00:00 или XX:30:00, то есть значения через каждые 30 минут. Я создаю отдельный датафрейм с нужной мне периодичностью (30 минут), затем применяю update. В итоге все вроде бы ок. Но что-то мне подсказывает, что это немного кривое решение. Подскажите, пожалуйста, есть ли встроенные возможности для данной задачи. Поиск по интернетам не помог, либо я не умею задавать вопросы)

Можно использовать filter
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html
Или же просто сделать reset_index и работать с этой колонкой как обычно.

источник

05:39пожаловаться #8

IS

Ivan Samorukov in Python для анализа данных

Yuriy Prudnikov

Можно использовать filter
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html
Или же просто сделать reset_index и работать с этой колонкой как обычно.

reset разве удалит ненужное?

источник

05:42пожаловаться #9

YP

Yuriy Prudnikov in Python для анализа данных

Нет, reset превратит индекс в обычную колонку, а там можно будет сделать что то типа

df[df['your_column'].str.contains(30:00)]

источник

05:51пожаловаться #10

YP

Yuriy Prudnikov in Python для анализа данных

Хотя, думаю, с датой можно как то более оптимально поступить. Мб кастануть к инту и смотреть на остаток от деления.

источник

05:52пожаловаться #11

IS

Ivan Samorukov in Python для анализа данных

Yuriy Prudnikov

Хотя, думаю, с датой можно как то более оптимально поступить. Мб кастануть к инту и смотреть на остаток от деления.

Вот я тоже думал, что есть какие-то специальные подходы к datetimeindex

источник

05:54пожаловаться #12

ВК

Владимир Калинин... in Python для анализа данных

конечно есть подходы)

источник

09:18пожаловаться #13

ВК

Владимир Калинин... in Python для анализа данных

в пандас отличный инструментарий для работы с временем

источник

09:18пожаловаться #14

NN

Natalya Nikitina in Python для анализа данных

Добрый день. Помогите, пожалуйста. Учусь на налитика, пишу проект, докопалась до задачи, которую не могу решить (

Есть датафрейм df1 с тремя колонками, например
A B C
1 10 25
2 15 6
3 20 89
4 25 3
5 25 20
6 20 67
7 116 89
8 7 34

Есть список - No с перечислением чисел, которые надо убрать из датафрейма, например no=[20, 25, 3]
Есть список - Yes с перечислением чисел, которые надо вставить вместо тех, которые надо убрать yes=[4, 777, 9]

То ли у меня глаза замылились и я не вижу очевидных вещей, то ли знаний не хватает.

источник

11:35пожаловаться #15

NN

Natalya Nikitina in Python для анализа данных

Числа вставить надо в случайном порядке

источник

11:35пожаловаться #16

KM

Konstantin Mohov in Python для анализа данных

df = pd.DataFrame({'names':['vasya', 'petya', 'masha'], 'scores':[1,2, 3]})
to_replace = {1: 10, 2:20}
df['scores'] = df['scores'].replace(to_replace)

источник

11:41пожаловаться #17

KM

Konstantin Mohov in Python для анализа данных

то есть из ваших двух списков No и Yes делаете 1 словарь

источник

11:42пожаловаться #18

NN

Natalya Nikitina in Python для анализа данных

Konstantin Mohov

df = pd.DataFrame({'names':['vasya', 'petya', 'masha'], 'scores':[1,2, 3]})
to_replace = {1: 10, 2:20}
df['scores'] = df['scores'].replace(to_replace)

Благодарю! Всё получилось.

источник

12:12пожаловаться #19

KM

Konstantin Mohov in Python для анализа данных

AnimatedSticker.tgs

(17.79 Кб)

источник

12:15пожаловаться #20