товарищи, научите работать спарком/spark-shell. понадобилось посравнивать две, что-то типа EAV таблички, одна из бэкапа, другая свежая. таблички по 50-70 млрд строк. даже exceptAll(), генерирующий HashJoin падает, пришлось задирать spark.executor.memory до 6G и memoryOverhead до 3G. в запросах где делаю left join и план с MergeSortJoin и этого не хватает.
может есть какой параметр ограничивающий сортировки cпарку ? как вообще думана работа спарк, допустим из зепелина или spark on hive. задачи то разные случаются, я же не буду подстраивать executor.memory/memoryOverhead под каждую задачу.