Пошёл дальше, конвертнул датафрейм в рдд, сделал кастомный партишенер, который гарантированно отправляет в разные партиции, но это вышло довольно медленно(
Пошёл дальше, конвертнул датафрейм в рдд, сделал кастомный партишенер, который гарантированно отправляет в разные партиции, но это вышло довольно медленно(
увы, вы будете постоянно упираться в проблемы с data locality