В соседней команде предлагают использовать шардинг при помощи consistent hashing, но что то меня в этом смущает, вроде бы этот подход хорош для баз данных если нужно добавить шарды без ребилда таблицы.
Как можно равномерно сбалансировать входящие данные, которые наверняка не поместятся в спарковский кластер (AWS Glue)? Ещё есть ограничение по времени, не дольше часа, поскольку поступит новая партия данных.
насколько я помню, если перекошенный датасет не помещается в броадкаст - ему подсаливают ключи, но все вручную; может быть есть что-то новое и автоматическое, но я давно не заглядывал в эту часть