создаются отдельные дирректории под skew и обрабатываются отдельно, но разницы в скорости работы на тестовых замерах не увидел(
Ага. Я читал еще про Pig. Там например есть возможность сэмплировать данные первым проходом, чтобы понять распределение. А затем ключи, которых сильно больше рандомно рассылаются по редьюсерам.