Телеграмм чат группы hadoopusers страница 2924

2020 November 04

А

а вот эту часть конфига?

// Use ShuffledHashJoinExec's selection requirements
// 1. Disable auto broadcasting
// JoinSelection (canBuildLocalHashMap specifically) requires that
// plan.stats.sizeInBytes < autoBroadcastJoinThreshold * numShufflePartitions
// That gives that autoBroadcastJoinThreshold has to be at least 1
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)

да, броадкаст join тоже отключал

источник

16:43пожаловаться #1

N

Nikolay in Data Engineers

Алексей

Подскажите, пытаюсь выполнить shuffled hash join , установил

spark.conf.set("spark.sql.join.preferSortMergeJoin", false)

и все равно в плане SortMergeJoin
пробовал в spark 2.3 и 3.0.1 databricks
что еще нужно поставить, чтобы активировать shuffled hash join? или может его совсем выпилили?

Хинт поставьте.

источник

16:54пожаловаться #2

N

Nikolay in Data Engineers

df2. hint("shuffle_hash").join( df1,"id")

источник

16:56пожаловаться #3

E

Evgeny in Data Engineers

Nikolay

Хинт поставьте.

Тоже не всегда помогает

источник

16:57пожаловаться #4

N

Nikolay in Data Engineers

Evgeny

Тоже не всегда помогает

вы приведите пример, когда не помогает. посмотрим вместе почему не помогает. нужен кусочек кода, чтобы можно было воспроизвести.

источник

16:58пожаловаться #5

А

Алексей in Data Engineers

Nikolay

Хинт поставьте.

спасибо, попробую

источник

17:02пожаловаться #6

R

Renarde in Data Engineers

Алексей

да, броадкаст join тоже отключал

вот так можно:

spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)
spark.conf.set("spark.sql.join.preferSortMergeJoin", false)
spark.conf.set("spark.sql.adaptive.enabled", false)

val dataset = Seq(
  (0, "playing"),
  (1, "with"),
  (2, "ShuffledHashJoinExec")
).toDF("id", "token")

val q = dataset.hint("shuffle_hash").join(dataset, Seq("id"))
q.explain

источник

17:02пожаловаться #7

R

Renarde in Data Engineers

ответ:

== Physical Plan ==
*(1) Project [id#231, token#232, token#236]
+- ShuffledHashJoin [id#231], [id#235], Inner, BuildLeft, false
   :- Exchange hashpartitioning(id#231, 200), true, [id=#406]
   :  +- LocalTableScan [id#231, token#232]
   +- ReusedExchange [id#235, token#236], Exchange hashpartitioning(id#231, 200), true, [id=#406]


dataset: org.apache.spark.sql.DataFrame = [id: int, token: string]
q: org.apache.spark.sql.DataFrame = [id: int, token: string ... 1 more field]

источник

17:03пожаловаться #8

А

Алексей in Data Engineers

Renarde

вот так можно:

spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)
spark.conf.set("spark.sql.join.preferSortMergeJoin", false)
spark.conf.set("spark.sql.adaptive.enabled", false)

val dataset = Seq(
  (0, "playing"),
  (1, "with"),
  (2, "ShuffledHashJoinExec")
).toDF("id", "token")

val q = dataset.hint("shuffle_hash").join(dataset, Seq("id"))
q.explain

спасибо, в датабриксе еще сработало с хинтом в sql

/*+ SHUFFLE_HASH(m, i) */

источник

17:03пожаловаться #9

D

Dmitriy in Data Engineers

Добрый день.
С информатикой 10.4.01 работал кто? Сталкивались ли вы с проблемой постановки маппингов с статус queue?

источник

17:32пожаловаться #10

А

Алексей in Data Engineers

@renardeinside , можно гдето почитать про внутреннее устройство z-order? что он делает под капотом? Сортирует, бакетирует, создает ли новый файлы статистик, дополняет ли parquet файлы новыми данными?

источник

20:08пожаловаться #11

R

Renarde in Data Engineers

Алексей

@renardeinside , можно гдето почитать про внутреннее устройство z-order? что он делает под капотом? Сортирует, бакетирует, создает ли новый файлы статистик, дополняет ли parquet файлы новыми данными?

https://docs.databricks.com/delta/optimizations/file-mgmt.html#z-ordering-multi-dimensional-clustering
https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html?_ga=2.39107680.2124548659.1604511640-1543332958.1604511640

вторая больше техническая, там и Zorder объясняется

Databricks

Optimize performance with file management — Databricks Documentation

Learn about the file management mechanisms available with Delta Lake on Databricks to improve performance.

источник

20:42пожаловаться #12

Д

Дмитрий in Data Engineers

Dmitriy

Добрый день.
С информатикой 10.4.01 работал кто? Сталкивались ли вы с проблемой постановки маппингов с статус queue?

Да работаем.

источник

21:38пожаловаться #13

Д

Дмитрий in Data Engineers

Коллеги, есть вопрос. Имеется керберизированный кластер hadoop, с настроенным KNOX (Yarn, HDFS, HIVE). Есть необходимость запускать задачи PySPARK через KNOX. Подскажите куда копать для настройки spark-submit, для запуска через KNOX.

источник

22:18пожаловаться #14

E

Evgeny in Data Engineers

Дмитрий

Коллеги, есть вопрос. Имеется керберизированный кластер hadoop, с настроенным KNOX (Yarn, HDFS, HIVE). Есть необходимость запускать задачи PySPARK через KNOX. Подскажите куда копать для настройки spark-submit, для запуска через KNOX.

В livy

источник

22:34пожаловаться #15

Д

Дмитрий in Data Engineers

Livy наружу не торчит.

источник

22:34пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Дмитрий

Livy наружу не торчит.