Телеграмм чат группы hadoopusers страница 3634

Size: a a a

Data Engineers

2452 membersпожаловаться на группу

2021 May 10

K S in Data Engineers

Тупой вопрос - как эмулировать df.partitionBy(col) если мне нужно записать каждую запись в редис как json?

источник

21:19пожаловаться #1

K S in Data Engineers

Использую spark-redis, который записывает датафрейм в редис как отдельные чанки. Код, который читает записанные данные использует обычный питоновский драйвер, то есть придется писать логику сборки, с чем не хочется заморачиваться.

источник

21:23пожаловаться #2

2021 May 12

Sebastian in Data Engineers

Отличный канал! Понятнее и быстрее, чем доку изучать

источник

02:09пожаловаться #3

Combot in Data Engineers

xzljv lasvjt has been banned! Reason: CAS ban.

источник

03:50пожаловаться #4

Dmitry in Data Engineers

товарищи, научите работать спарком/spark-shell. понадобилось посравнивать две, что-то типа EAV таблички, одна из бэкапа, другая свежая. таблички по 50-70 млрд строк. даже exceptAll(), генерирующий HashJoin падает, пришлось задирать spark.executor.memory до 6G и memoryOverhead до 3G. в запросах где делаю left join и план с MergeSortJoin и этого не хватает.
может есть какой параметр ограничивающий сортировки cпарку ? как вообще думана работа спарк, допустим из зепелина или spark on hive. задачи то разные случаются, я же не буду подстраивать executor.memory/memoryOverhead под каждую задачу.

источник

10:47пожаловаться #5

Rustam Iksanov in Data Engineers

Это нормально, когда тяжёлые расчёты имеют свои конфиги

источник

10:48пожаловаться #6

Алексей in Data Engineers

спарк не должен падать по памяти, максимум долгий спилл на диск, вероятно, причина в перекосе данных на 1 ключ

источник

10:50пожаловаться #7

Dmitry in Data Engineers

в том и дело что запросы что я пытаюсь выполнить не должны перекоса давать

источник

10:51пожаловаться #8

Dmitry in Data Engineers

exceptAll() - я так понимаю проблема могла бы быть если бы миллионы полных дублей обнаружились. но такого в данных нет

источник

10:52пожаловаться #9

Алексей in Data Engineers

как вариант, может left anti join сделать по ключу?

источник

10:54пожаловаться #10

Dmitry in Data Engineers

пробовал по разному, и anti и MINUS в sql синтаксисе. все что не exceptAll дает MergeSortJoin и тупит часами, а в части executors вижу
#
# java.lang.OutOfMemoryError: Java heap space
# -XX:OnOutOfMemoryError="kill %p"
# Executing /bin/sh -c "kill 129217"...
2021-05-12 04:29:13 ERROR [SIGTERM handler] CoarseGrainedExecutorBackend:43 - RECEIVED SIGNAL TERM

источник

10:57пожаловаться #11

Алексей in Data Engineers

мерж join дефолтный алгоритм в спарк, так что это норма для lj. Посмотрите в мониторинге самого спарка, сколько строк в каждый таск попадает, наверняка у кого-то много, а у кого-то мало. Тут или памяти добавлять или бороться за равномерное распределение

источник

11:00пожаловаться #12

Dmitry in Data Engineers

ну тогда выходит что аналитики толком ни в зепелине ни в hive on spark не могут работать, без тонкой настройки под каждого

источник

11:02пожаловаться #13

Alex in Data Engineers

многие сразу ставят дефолт, потом по мере запросов подымают
известная проблема как не попросить слишком много чтобы машины не стояли, но и не слишком мало чтобы не упасть

источник

11:04пожаловаться #14

ЕГ

Евгений Глотов... in Data Engineers

А сколько оперативы на одно ядро экзекутора?

источник

11:07пожаловаться #15

ЕГ

Евгений Глотов... in Data Engineers

И сколько миллионов строк в среднем на таск?

источник

11:07пожаловаться #16

Dmitry in Data Engineers

4-6G на executor + 3G memoryOverhead, ну и порядка 40 executors ставлю

источник

11:08пожаловаться #17

ЕГ

Евгений Глотов... in Data Engineers

Чаще всего нужно просто увеличить spark.sql.shuffle.partitions, и всё отработает, если только нет какой-нибудь одной таски с кучей записей с одним и тем же ключом

источник

11:09пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

А сколько тасков отрабатывает?

источник

11:09пожаловаться #19

ЕГ

Евгений Глотов... in Data Engineers

199/200?

источник

11:09пожаловаться #20