Size: a a a

2021 April 27

GP

Grigory Pomadchin in Data Engineers
Да вон тебе ж @KaiNie_R подсказал, репартишн делаешь и все
источник

GP

Grigory Pomadchin in Data Engineers
Ну или заранее хорошие партиции делаешь
источник

KS

K S in Data Engineers
Понял, спасибо.
источник

KS

K S in Data Engineers
Сорри за возможно тупые вопросы, я ещё только в начале пути познания даоса.
источник

ИК

Иван Калининский... in Data Engineers
на самом деле ещё не всё, если есть skew, то можно создать слишком большие таски и всё станет только хуже. Поэтому возможно придётся добавить соль - дополнительное поле, например (rand() * 10) cast IntegerType, где 10 - число, которое придётся подобрать, чтобы не было этих больших тасков.

хорошая альтернатива - repartitionByRange(numParts,f1,f2,f3)
источник

KS

K S in Data Engineers
Спасибо, обязательно попробую с и без salting.
источник

KS

K S in Data Engineers
Разброс в данных около 10 записей на ключ, поэтому там  больших перекосов не должно быть.
По сути мне нужно что-то типа SQL
select f1, f2, f3, f4 from t Group By f1, f2, f3

но без аггрегирующих функций
источник

KS

K S in Data Engineers
Пробовал с window function, но что-то медленно
источник

KS

K S in Data Engineers
То есть мне не нужно создавать файлы для каждой партиции, а просто создать дата фрейм определенной структуры и потом сохранить его как json.
источник

KS

K S in Data Engineers
Предыдущий девелопер реализовал эту задачу с помощью partitionBy поэтому и создаются файлы для каждой партиции, что тормозит в определенных случаях (надеюсь, что с помощью ваших советов это значительно ускорится).
Я же хочу переписать это решение таким образом, что необходимость в создании отдельных файлов отпадет и нужно будет создать только один файл.
источник

e

er@essbase.ru in Data Engineers
Народ, тут есть спецы по облачной информатике ? С чего начать познание ?🙈
источник

AZ

Anton Zadorozhniy in Data Engineers
А что это?
источник

e

er@essbase.ru in Data Engineers
Informatica Cloud
источник

A

Aleksandra in Data Engineers
А кто-нибудь имел опыт с parallel job submitting в Spark (через scala futures)? Есть какие-нибудь подводные камни и вообще есть ли интерес в этом?
источник

A

Alex in Data Engineers
+1 к вопросу выше. Тоже интересует данная тема
источник

N

Nikita Blagodarnyy in Data Engineers
лучше начать с отказа от познания информатики.
источник

t

tenKe in Data Engineers
> А кто-нибудь имел опыт с parallel job submitting в Spark (через scala futures)? Есть какие-нибудь подводные камни и вообще есть ли интерес в этом?
Что конкретно интересует? Смысл есть всегда, когда ваш джоб не может прогреть все воркеры и они простаивают
источник

e

er@essbase.ru in Data Engineers
Не везде дата Биг 😳
источник

D

Den in Data Engineers
Я делал, важно понимать что они все равно потом в очередь становятся, поєтому если сабмитить параллельно то лучше в разные очереди
источник

t

tenKe in Data Engineers
Это не совсем верное утверждение. Если джоб 1 запустился в момент времени 1 и не выгреб все доступные ядра, то джоб 2 будет аллоцирован сразу и получит оставшиеся ядра под часть тасков
источник