А
https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html?_ga=2.39107680.2124548659.1604511640-1543332958.1604511640
вторая больше техническая, там и Zorder объясняется
Size: a a a
А
K
GP
N
K
GA
K
AS
"spark.sql.sources.partitionOverwriteMode", "dynamic"
java.io.IOException: PathOutputCommitProtocol does not support dynamicPartitionOverwrite
A
AZ
K
E
AZ
АС
AS
"spark.sql.sources.partitionOverwriteMode", "dynamic"
java.io.IOException: PathOutputCommitProtocol does not support dynamicPartitionOverwrite
spark.conf.set("spark.sql.sources.commitProtocolClass", "org.apache.spark.internal.io.HadoopMapReduceCommitProtocol")или
не разбирался в чем отличие между ними, но работает. и по умолчанию в CDH5.16 + spark2.4 используется второй
spark.conf.set("spark.sql.sources.commitProtocolClass", "org.apache.spark.sql.execution.datasources.SQLHadoopMapReduceCommitProtocol")
AZ
АС
АС
AZ