Телеграмм чат группы hadoopusers страница 2031

А накидайте плз, какие вы знаете способы борьбы со skew (skew join) в данных и примеры того, как это делают популярные движки в _автоматическом_ или _полуавтоматическом_ режиме?

источник

15:52пожаловаться #5

Alexander Gorokhov in Data Engineers

Самый простой это добавить поле с номером строки

источник

16:23пожаловаться #6

Alexander Gorokhov in Data Engineers

Остальное зависит от кейса. Нужно ли джойниться со скювнутым полем?

источник

16:23пожаловаться #7

Alexander Gorokhov in Data Engineers

Видел видос со спарк саммита где обсуждались способы борьбы со скю. Попробую найти

источник

16:24пожаловаться #8

Алексей in Data Engineers

в хайв можно указать skew Значение при создании таблицы https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-SkewedTables

источник

16:45пожаловаться #9

Алексей in Data Engineers

создаются отдельные дирректории под skew и обрабатываются отдельно, но разницы в скорости работы на тестовых замерах не увидел(

источник

16:46пожаловаться #10

Denis Gabaydulin in Data Engineers

Алексей

Ага. Я читал еще про Pig. Там например есть возможность сэмплировать данные первым проходом, чтобы понять распределение. А затем ключи, которых сильно больше рандомно рассылаются по редьюсерам.

источник

19:30пожаловаться #11

Denis Gabaydulin in Data Engineers

Alexander Gorokhov

Видел видос со спарк саммита где обсуждались способы борьбы со скю. Попробую найти

Спасибо, но это не совсем то. Как бороться в ручную понятно. Интереснее сумел ли кто-то сделать это в авоматическом режиме, пусть и с трейдофами.

источник

19:31пожаловаться #12

Alexander Gorokhov in Data Engineers

Denis Gabaydulin

Датабрикс умеет

источник

19:31пожаловаться #13

Denis Gabaydulin in Data Engineers

Какие то пейперы/техтоки не попадались от них?

источник

19:36пожаловаться #14

Grigory Pomadchin in Data Engineers

Denis Gabaydulin

Какие то пейперы/техтоки не попадались от них?

в основном маркетинг пейперы/статьи/толки попадаются

источник

19:43пожаловаться #15

Anton Zadorozhniy in Data Engineers

Denis Gabaydulin

Какие то пейперы/техтоки не попадались от них?

если про чистую теорию речь то способы борьбы известны давно и реализованы в самых зрелых движках: статистика с гистограммами по ключам (и/или продвинутый сэмплинг перед расчетом плана), выделение loner values, разделение на два джоина с разными типами для loners/regular ключей..

источник

21:46пожаловаться #16

Anton Zadorozhniy in Data Engineers

если вас конкретные публикации интересуют - поищите на acm, в подшивках The VLDB Journal за 90-ые

источник

21:50пожаловаться #17

2020 February 05

ММ

Максим Малинкин in Data Engineers

Господа, приветствую. Как можно на уровне конфига спарка принудительно дробить файлы в hdfs'е по нужному мне размеру? (repartiton не подходит, df слишком большой, просто ресурсов не хватает)

источник

11:20пожаловаться #18

Max Efremov in Data Engineers

Размер блоков задать?

источник

11:21пожаловаться #19

ММ

Максим Малинкин in Data Engineers

тоже нельзя

источник

11:21пожаловаться #20