Size: a a a

2020 November 04

А

Алексей in Data Engineers
Renarde
а вот эту часть конфига?
// Use ShuffledHashJoinExec's selection requirements
// 1. Disable auto broadcasting
// JoinSelection (canBuildLocalHashMap specifically) requires that
// plan.stats.sizeInBytes < autoBroadcastJoinThreshold * numShufflePartitions
// That gives that autoBroadcastJoinThreshold has to be at least 1
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)
да, броадкаст join тоже отключал
источник

N

Nikolay in Data Engineers
Алексей
Подскажите, пытаюсь выполнить shuffled hash join , установил
spark.conf.set("spark.sql.join.preferSortMergeJoin", false)

и все равно в плане SortMergeJoin
пробовал в spark 2.3 и 3.0.1 databricks
что еще нужно поставить, чтобы активировать shuffled hash join? или может его совсем выпилили?
Хинт поставьте.
источник

N

Nikolay in Data Engineers
df2. hint("shuffle_hash").join( df1,"id")
источник

E

Evgeny in Data Engineers
Nikolay
Хинт поставьте.
Тоже не всегда помогает
источник

N

Nikolay in Data Engineers
Evgeny
Тоже не всегда помогает
вы приведите пример, когда не помогает. посмотрим вместе почему не помогает. нужен кусочек кода, чтобы можно было воспроизвести.
источник

А

Алексей in Data Engineers
Nikolay
Хинт поставьте.
спасибо, попробую
источник

R

Renarde in Data Engineers
Алексей
да, броадкаст join тоже отключал
вот так можно:
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)
spark.conf.set("spark.sql.join.preferSortMergeJoin", false)
spark.conf.set("spark.sql.adaptive.enabled", false)

val dataset = Seq(
 (0, "playing"),
 (1, "with"),
 (2, "ShuffledHashJoinExec")
).toDF("id", "token")

val q = dataset.hint("shuffle_hash").join(dataset, Seq("id"))
q.explain
источник

R

Renarde in Data Engineers
ответ:
== Physical Plan ==
*(1) Project [id#231, token#232, token#236]
+- ShuffledHashJoin [id#231], [id#235], Inner, BuildLeft, false
  :- Exchange hashpartitioning(id#231, 200), true, [id=#406]
  :  +- LocalTableScan [id#231, token#232]
  +- ReusedExchange [id#235, token#236], Exchange hashpartitioning(id#231, 200), true, [id=#406]


dataset: org.apache.spark.sql.DataFrame = [id: int, token: string]
q: org.apache.spark.sql.DataFrame = [id: int, token: string ... 1 more field]
источник

А

Алексей in Data Engineers
Renarde
вот так можно:
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)
spark.conf.set("spark.sql.join.preferSortMergeJoin", false)
spark.conf.set("spark.sql.adaptive.enabled", false)

val dataset = Seq(
 (0, "playing"),
 (1, "with"),
 (2, "ShuffledHashJoinExec")
).toDF("id", "token")

val q = dataset.hint("shuffle_hash").join(dataset, Seq("id"))
q.explain
спасибо, в датабриксе еще сработало с хинтом в sql
/*+ SHUFFLE_HASH(m, i) */
источник

D

Dmitriy in Data Engineers
Добрый день.
С информатикой 10.4.01 работал  кто? Сталкивались ли вы с проблемой постановки маппингов с статус queue?
источник

А

Алексей in Data Engineers
@renardeinside , можно гдето почитать про внутреннее устройство z-order? что он делает под капотом? Сортирует, бакетирует, создает ли новый файлы статистик, дополняет ли parquet файлы новыми данными?
источник

R

Renarde in Data Engineers
Алексей
@renardeinside , можно гдето почитать про внутреннее устройство z-order? что он делает под капотом? Сортирует, бакетирует, создает ли новый файлы статистик, дополняет ли parquet файлы новыми данными?
источник

Д

Дмитрий in Data Engineers
Dmitriy
Добрый день.
С информатикой 10.4.01 работал  кто? Сталкивались ли вы с проблемой постановки маппингов с статус queue?
Да работаем.
источник

Д

Дмитрий in Data Engineers
Коллеги, есть вопрос. Имеется керберизированный кластер hadoop, с настроенным KNOX (Yarn, HDFS, HIVE). Есть необходимость запускать задачи PySPARK через KNOX. Подскажите куда копать для настройки spark-submit, для запуска через KNOX.
источник

E

Evgeny in Data Engineers
Дмитрий
Коллеги, есть вопрос. Имеется керберизированный кластер hadoop, с настроенным KNOX (Yarn, HDFS, HIVE). Есть необходимость запускать задачи PySPARK через KNOX. Подскажите куда копать для настройки spark-submit, для запуска через KNOX.
В livy
источник

Д

Дмитрий in Data Engineers
Livy наружу не торчит.
источник

AZ

Anton Zadorozhniy in Data Engineers
Дмитрий
Livy наружу не торчит.
Можно выставить
источник

E

Evgeny in Data Engineers
Knox умеет в livy ходить
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

Д

Дмитрий in Data Engineers
Можно, но долго ... наш knox официально не может ... бюрократия мешает.
источник