подскажите, можно ли как-то в pandas сделать drop_duplicates, но дропнуть не все дубликаты, а только часть? например, если дубликатов больше 5, то дропнуть остальные, а если меньше, то ничего не делать
Хм, вроде нет такого в параметрах. Перед самым началом сделать groupby по первичному ключу, получив индексы, по которым можно получить два датасета:
- один с малым количеством дубликатов: меньше 5, такие записи не трогаем
- в другом лежат записи, у которых дублей больше 5. Такие записи дропаем и оставляет только один дубль
После эти два датафрейма конкатенируем