Нет, это скорее естественный data skew. Обычно у клиента около 100-1000 девайсов и это легко помещается в существующие ресурсы, тем более, что я обрабатываю по одному клиенту на запрос в спарк кластере. Однако у некоторых клиентов свыше миллиона девайсов и при поступлении этих данных, процесс обработки просто вылетает по таймауту, даже если прибавить количество воркеров. Коллега также говорит, что тормоза могут быть с partition by device_id при сохранении в S3.
OMG, это очень неудачное решение, совершенно точно не стоит по такому большому количеству значений партицировать, у вас и partition lookup потом тормозить будет, сжатие пострадает..