Телеграмм чат группы pydata

@ax_makarov может вообще "аналитиков" банить, которые присылают подобный контент. Потому что похоже они сюда пришли не Python для анализа данных изучать😳

источник

15:03пожаловаться #5

АМ

Алексей Макаров... in Python для анализа данных

Да, баны раздаю) Но они снова появляются с других аккаунтов)

источник

15:48пожаловаться #6

Anatolii Balakiriev in Python для анализа данных

понял, спасибо за объяснение

источник

16:02пожаловаться #7

Jay in Python для анализа данных

2021 May 12

s k in Python для анализа данных

добрый день, коллеги, подскажите логику решения задачи:

pandas DF может содержать строки, которые являются дублями по по 3-5 ОСНОВНЫМ признакам (ФИО+ДР+дата поступления в базу)

КОСВЕННЫЕ признаки могут отличаться или быть одинаковыми

мне нужно удалить дубли по правилу:
1) если КОСВЕННЫЕ признаки заполнены в одинаковом объеме - те, одинаковое кол-во NaN в строке - оставить строку с наиболее позднем временем поступления в базу

2) если КОСВЕННЫЕ признаки заполнены не одинаково то:

а) если у одной из строк заполнен признак "результат" оставить строку с заполненным признаком и удалить ту где "результат" == NaN;
б) если ни у одной из строк НЕ заполнен признак "результат" оставить строку с наименьшим количеством NaN в признаках;

я пока вижу решение только так:
1) добавить признак "кол-во NaN в строке"
2) разбивать таблицу на:
* ту что с "результат" == NaN
* "результат" != NaN
3) удалить дубликаты (оставив последний по времени поступления) в таблице с "результат" != NaN
4) найти в таблице "результат" == NaN людей у которых ОСНОВНЫЕ признаки совпали с списокм уникальных из таблицы с "результат" != NaN
5) для оставшихся в "результат" == NaN сортироваться по наименьшему значению признака "кол-во NaN в строке" - потом удалить дубликаты по ОСНОВНЫМ признакам.

короче, очень сложно((
возможно есть какое-то простое решение (метод который я не обнаружил) - буду рад помощи

источник

11:33пожаловаться #9

АР

Александр Райков... in Python для анализа данных

Можно ли объяснить pd.Timestamp, что порядок месяц и числа не американский?

источник

12:09пожаловаться #10

АР

Александр Райков... in Python для анализа данных

Чтобы 08.05.2021 было 8 мая, а не 5 августа

источник

12:09пожаловаться #11

Pavel Zheltouhov in Python для анализа данных

то есть, переконвертировать timestamp уже после того как он считался? да лучше вернуться назад к тому моменту когда данные считываются и там разобраться с форматом

источник

12:27пожаловаться #12

АР

Александр Райков... in Python для анализа данных

Не, ну я написал костыль, переставляющий в строке символы на месте числа и месяца, и потом в timestamp

источник

12:28пожаловаться #13

АР

Александр Райков... in Python для анализа данных

Но кажется, что должно быть встроенное и более быстрое решение

источник

12:28пожаловаться #14