Size: a a a

Python для анализа данных

2021 September 03

А

Айван in Python для анализа данных
Ну, нужно же когда-то вникать)
источник

АД

Андрей Демидов... in Python для анализа данных
А ещё, кстати, вопрос (больше к автору): а почему если A B или B A, то количество дубликатов 1? Если значения разные, то дубликатов нет, т.е. 0, верно?
источник

A

Azamat in Python для анализа данных
Отпишись. Если сможешь за час сделать - браво!
источник

PZ

Pavel Zheltouhov in Python для анализа данных
groupby считается освоенным по-дефолту, так как он просто копирует логику того как это обычно считается в sql.
источник

А

Айван in Python для анализа данных
Мне скорее не "дубликаты" нужны, а количество таких строк
источник

А

Айван in Python для анализа данных
Что-то вроде collections.Counter(...)
источник

АД

Андрей Демидов... in Python для анализа данных
А, всё, вашу задачу просто не сразу понял... Теперь ясно
источник

А

Айван in Python для анализа данных
df_with_count = (
 df.groupby(df.columns.tolist())
   .size()
   .reset_index()
   .rename(columns={0:'count'})
)
df.merge(df_with_count, on=['one', 'two'], how='left')
источник

А

Айван in Python для анализа данных
Спасибо
источник

A

Azamat in Python для анализа данных
👍 молодчик
источник

IS

Ilya Shutov in Python для анализа данных
не знаю, чем всех радует интерфейс pandas.
в python завезли либу data.table
на ней задача делается в 10 символов

ниже код  на R, строчку перекладываете на python
library(data.table)

dt <- data.table(x = c("A", "A", "A", "B"), y = c("A", "B", "A", "A"))

# считаем
dt[, n := .N, by = .(x, y)]

результат
> dt
  x y n
1: A A 2
2: A B 1
3: A A 2
4: B A 1

никаких мерджей и копирований.
тупая работа по ссылкам, единственный оптимальный вариант работы с памятью
источник

А

Айван in Python для анализа данных
Не плохо, но с ней уж совсем не знаком. Как-нибудь потом попробую
источник

IS

Ilya Shutov in Python для анализа данных
Неплохо? :)
сравните тайминги на > 10^7 строк.

Да это референсная либа в ds по которой все остальные пакетописатели часы сверяют. CPU clock

"мы сделали почти как data.table" сравни номинации на Оскар :)
источник

А

Александр in Python для анализа данных
Добрый вечер! Имеется небольшой df, где в качестве доп. параметров чтения указаны index_col=0, parse_dates=[“Date”]
Объясните пожалуйста как я могу фильтровать построчно с помощью .loc?
источник

А

Александр in Python для анализа данных
источник

A

Azamat in Python для анализа данных
Просто пиши organic_chicago['2015-01-04']
источник

A

Azamat in Python для анализа данных
У тебя индекс датаиндекс. Сам отследит
источник

A

Azamat in Python для анализа данных
Кавычки не забудь
источник

A

Azamat in Python для анализа данных
Selecting rows with specified days in datetimeindex dataframe - Pandas - Stack Overflow
https://stackoverflow.com/questions/33879197/selecting-rows-with-specified-days-in-datetimeindex-dataframe-pandas
источник

А

Александр in Python для анализа данных
Выдаёт KeyError
источник