Сортируешь локально, оцениваешь распределение датки, перераспределяешь, мержишь
Тут есть минус. Они все если в память не влезут , то и у меня будет N сортированых файлов , то я каждый файл буду читать M раз. Например у меня есть нода m , на которой должны быть значения в диапазоне [ x,y] то мне нужно на каждой ноде прочитать N файлов и найти значения из этого диапазона