Size: a a a

Python для анализа данных

2021 December 02

AG

Arsen Gumin in Python для анализа данных
А какую именно оставлять? Последнее по дату, или что
источник

AG

Arsen Gumin in Python для анализа данных
Или любую
источник

М

Максим in Python для анализа данных
Просто одну) они полностью совпадают по датам и суммам и плательщику и получателю
источник

AG

Arsen Gumin in Python для анализа данных
Так удали дубликаты в них и сделай мерж
источник

М

Максим in Python для анализа данных
Не. Тогда я не смогу конкретно сказать что вот ЭТА транзакция относится именно к ЭТОМУ id. А суть - именно показать что одна транз заверена только один раз к одному id
источник

М

Максим in Python для анализа данных
Изначально дублей нет в двух DF
источник

AG

Arsen Gumin in Python для анализа данных
Что за ключ мержа? Один? Какой мерж ты используешь
источник

М

Максим in Python для анализа данных
По 4 столбцам - плательщик, получатель, дата, сумма.
Использую Left и indicator=True
Потом оставляю те что в категории “both”
источник

AG

Arsen Gumin in Python для анализа данных
А сказали по id, тут 4 столбца и про Id не слышно
источник

ВL

Владислав Lazycat... in Python для анализа данных
Миллион строк... А не из базы ли Вы их тащите? Если так, то это делается одним селектор ;-)
источник

М

Максим in Python для анализа данных
Видимо неверно выразился.. на ходу пишу. Извиняюсь
источник

М

Максим in Python для анализа данных
Исходники - да, 3 таблицы тянется. Потом с ними происходят манипуляции и обработка в блокноте. И остаётся вот этот момент, чтобы выдать результат.
источник

ВL

Владислав Lazycat... in Python для анализа данных
Меня конечно заклюют сейчас, но имхо, "кесарю кесарево, слесарю слесарево". Таблицы лучше обрабатывать в бд (подготавливать данные), анализ данных в python/R.
источник

K

Kurah in Python для анализа данных
Какое регулярное выражение использовать, если мне нужно найти все подстроки, начинающиеся на Х и заканчивающиеся на Y, а между ними буквы О?
источник

M

Man of War in Python для анализа данных
несколько букв О? X и Y одни?
источник

K

Kurah in Python для анализа данных
да
источник

3

3ldar in Python для анализа данных
Не заклюём) Тоже б делал в sql
источник

VF

Vladislav Filippov in Python для анализа данных
как вариант r"(XO+Y)"
источник

AG

Arsen Gumin in Python для анализа данных
Если это не spark
источник

M

Man of War in Python для анализа данных
или r"^XO+Y?", так будет находить строки, которые начинаются на X и заканчиваются на Y, между ними 1+ O
источник