Size: a a a

2020 February 04

AL

Artem Likhomanenko in Data Engineers
ок
источник

AL

Artem Likhomanenko in Data Engineers
@krivdathetriewe спасибо!
источник

K

KrivdaTheTriewe in Data Engineers
Artem Likhomanenko
у нас для этого солр)
Ну тогда можно брать данные и класть в паркет раз в час или сутки
источник

AL

Artem Likhomanenko in Data Engineers
KrivdaTheTriewe
Ну тогда можно брать данные и класть в паркет раз в час или сутки
ага, понял, спасибо!
источник

DG

Denis Gabaydulin in Data Engineers
А накидайте плз, какие вы знаете способы борьбы со skew (skew join) в данных и примеры того, как это делают популярные движки в _автоматическом_ или _полуавтоматическом_ режиме?
источник

AG

Alexander Gorokhov in Data Engineers
Самый простой это добавить поле с номером строки
источник

AG

Alexander Gorokhov in Data Engineers
Остальное зависит от кейса. Нужно ли джойниться со скювнутым полем?
источник

AG

Alexander Gorokhov in Data Engineers
Видел видос со спарк саммита где обсуждались способы борьбы со скю. Попробую найти
источник

А

Алексей in Data Engineers
в хайв можно указать skew Значение при создании таблицы https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-SkewedTables
источник

А

Алексей in Data Engineers
создаются отдельные дирректории под skew и обрабатываются отдельно, но разницы в скорости работы на тестовых замерах не увидел(
источник

DG

Denis Gabaydulin in Data Engineers
Алексей
создаются отдельные дирректории под skew и обрабатываются отдельно, но разницы в скорости работы на тестовых замерах не увидел(
Ага. Я читал еще про Pig. Там например есть возможность сэмплировать данные первым проходом, чтобы понять распределение. А затем ключи, которых сильно больше рандомно рассылаются по редьюсерам.
источник

DG

Denis Gabaydulin in Data Engineers
Alexander Gorokhov
Видел видос со спарк саммита где обсуждались способы борьбы со скю. Попробую найти
Спасибо, но это не совсем то. Как бороться в ручную понятно. Интереснее сумел ли кто-то сделать это в авоматическом режиме, пусть и с трейдофами.
источник

AG

Alexander Gorokhov in Data Engineers
Denis Gabaydulin
Спасибо, но это не совсем то. Как бороться в ручную понятно. Интереснее сумел ли кто-то сделать это в авоматическом режиме, пусть и с трейдофами.
Датабрикс умеет
источник

DG

Denis Gabaydulin in Data Engineers
Какие то пейперы/техтоки не попадались от них?
источник

GP

Grigory Pomadchin in Data Engineers
Denis Gabaydulin
Какие то пейперы/техтоки не попадались от них?
в основном маркетинг пейперы/статьи/толки попадаются
источник

AZ

Anton Zadorozhniy in Data Engineers
Denis Gabaydulin
Какие то пейперы/техтоки не попадались от них?
если про чистую теорию речь то способы борьбы известны давно и реализованы в самых зрелых движках: статистика с гистограммами по ключам (и/или продвинутый сэмплинг перед расчетом плана), выделение loner values, разделение на два джоина с разными типами для loners/regular ключей..
источник

AZ

Anton Zadorozhniy in Data Engineers
если вас конкретные публикации интересуют - поищите на acm, в подшивках The VLDB Journal за 90-ые
источник
2020 February 05

ММ

Максим Малинкин in Data Engineers
Господа, приветствую. Как можно на уровне конфига спарка принудительно дробить файлы в hdfs'е по нужному мне размеру? (repartiton не подходит, df слишком большой, просто ресурсов не хватает)
источник

ME

Max Efremov in Data Engineers
Размер блоков задать?
источник

ММ

Максим Малинкин in Data Engineers
тоже нельзя
источник