Size: a a a

Python для анализа данных

2021 May 11

s

slavapro in Python для анализа данных
Позовите админа, нет сил это видеть
источник

AB

Anatolii Balakiriev in Python для анализа данных
источник

АМ

Алексей Макаров... in Python для анализа данных
Done)
источник

A

Andrey Denisov in Python для анализа данных
О, снова марксисты @ax_makarov
источник

AB

Anatolii Balakiriev in Python для анализа данных
@ax_makarov может вообще "аналитиков" банить, которые присылают подобный контент. Потому что похоже они сюда пришли не Python для анализа данных изучать😳
источник

АМ

Алексей Макаров... in Python для анализа данных
Да, баны раздаю) Но они снова появляются с других аккаунтов)
источник

AB

Anatolii Balakiriev in Python для анализа данных
понял, спасибо за объяснение
источник

J

Jay in Python для анализа данных
источник
2021 May 12

sk

s k in Python для анализа данных
добрый день, коллеги, подскажите логику решения задачи:

pandas DF может содержать строки, которые являются дублями по по 3-5 ОСНОВНЫМ признакам (ФИО+ДР+дата поступления в базу)

КОСВЕННЫЕ признаки могут отличаться или быть одинаковыми

мне нужно удалить дубли по правилу:
1) если КОСВЕННЫЕ признаки заполнены в одинаковом объеме - те, одинаковое кол-во NaN в строке - оставить строку с наиболее позднем временем поступления в базу

2) если КОСВЕННЫЕ признаки заполнены не одинаково то:

а) если у одной из строк заполнен признак "результат" оставить строку с заполненным признаком  и удалить ту где "результат"  == NaN;
б) если ни у одной из строк НЕ заполнен признак "результат" оставить строку с наименьшим количеством NaN в признаках;

я пока вижу решение только так:
1) добавить признак "кол-во NaN в строке"
2) разбивать таблицу на:
* ту что с "результат"  == NaN
* "результат"  != NaN
3) удалить дубликаты (оставив последний по времени поступления) в таблице с "результат"  != NaN
4) найти в таблице "результат"  == NaN людей у которых ОСНОВНЫЕ признаки совпали с списокм уникальных из таблицы с "результат"  != NaN
5) для оставшихся в "результат"  == NaN сортироваться по наименьшему значению признака  "кол-во NaN в строке" - потом удалить дубликаты по ОСНОВНЫМ признакам.

короче, очень сложно((
возможно есть какое-то простое решение (метод который я не обнаружил) - буду рад помощи
источник

АР

Александр Райков... in Python для анализа данных
Можно ли объяснить pd.Timestamp, что порядок месяц и числа не американский?
источник

АР

Александр Райков... in Python для анализа данных
Чтобы 08.05.2021 было 8 мая, а не 5 августа
источник

PZ

Pavel Zheltouhov in Python для анализа данных
то есть, переконвертировать timestamp уже после того как он считался? да лучше вернуться назад к тому моменту когда данные считываются и там разобраться с форматом
источник

АР

Александр Райков... in Python для анализа данных
Не, ну я написал костыль, переставляющий в строке символы на месте числа и месяца, и потом в timestamp
источник

АР

Александр Райков... in Python для анализа данных
Но кажется, что должно быть встроенное и более быстрое решение
источник

PZ

Pavel Zheltouhov in Python для анализа данных
так я и пишу, что это методологически неправильно. не то ищите. а как ваш код считал 8 число 25 месяца? наверное с ошибкой
источник

АР

Александр Райков... in Python для анализа данных
Без ошибок. Он в таких данных правильно понимает, а в двусмысленных интерпретирует по-американски
источник

АР

Александр Райков... in Python для анализа данных
Можете сами поиграться и убедиться
источник

PZ

Pavel Zheltouhov in Python для анализа данных
не хочу. но вы почитайте про pd.read_csv(...dayfirst=)
источник

АР

Александр Райков... in Python для анализа данных
Это не csv. В исходнике html
источник

АР

Александр Райков... in Python для анализа данных
Можно парсить даты при считывании файла, но тогда они сразу выходят с той же проблемой
источник