Телеграмм чат группы hadoopusers страница 3574

на самом деле ещё не всё, если есть skew, то можно создать слишком большие таски и всё станет только хуже. Поэтому возможно придётся добавить соль - дополнительное поле, например (rand() * 10) cast IntegerType, где 10 - число, которое придётся подобрать, чтобы не было этих больших тасков.

хорошая альтернатива - repartitionByRange(numParts,f1,f2,f3)

источник

16:22пожаловаться #5

K S in Data Engineers

Спасибо, обязательно попробую с и без salting.

источник

16:24пожаловаться #6

K S in Data Engineers

Разброс в данных около 10 записей на ключ, поэтому там больших перекосов не должно быть.
По сути мне нужно что-то типа SQL

select f1, f2, f3, f4 from t Group By f1, f2, f3

но без аггрегирующих функций

источник

16:29пожаловаться #7

K S in Data Engineers

Пробовал с window function, но что-то медленно

источник

16:31пожаловаться #8

K S in Data Engineers

То есть мне не нужно создавать файлы для каждой партиции, а просто создать дата фрейм определенной структуры и потом сохранить его как json.

источник

16:36пожаловаться #9

K S in Data Engineers

Предыдущий девелопер реализовал эту задачу с помощью partitionBy поэтому и создаются файлы для каждой партиции, что тормозит в определенных случаях (надеюсь, что с помощью ваших советов это значительно ускорится).
Я же хочу переписать это решение таким образом, что необходимость в создании отдельных файлов отпадет и нужно будет создать только один файл.

источник

16:41пожаловаться #10

er@essbase.ru in Data Engineers

Народ, тут есть спецы по облачной информатике ? С чего начать познание ?🙈

источник

17:37пожаловаться #11

Anton Zadorozhniy in Data Engineers

А что это?

источник

19:06пожаловаться #12

er@essbase.ru in Data Engineers

Informatica Cloud

источник

19:13пожаловаться #13

Aleksandra in Data Engineers

А кто-нибудь имел опыт с parallel job submitting в Spark (через scala futures)? Есть какие-нибудь подводные камни и вообще есть ли интерес в этом?

источник

19:25пожаловаться #14

Alex in Data Engineers

+1 к вопросу выше. Тоже интересует данная тема

источник

19:27пожаловаться #15

Nikita Blagodarnyy in Data Engineers

лучше начать с отказа от познания информатики.

источник

19:36пожаловаться #16

tenKe in Data Engineers

> А кто-нибудь имел опыт с parallel job submitting в Spark (через scala futures)? Есть какие-нибудь подводные камни и вообще есть ли интерес в этом?
Что конкретно интересует? Смысл есть всегда, когда ваш джоб не может прогреть все воркеры и они простаивают

источник

19:36пожаловаться #17

er@essbase.ru in Data Engineers

Не везде дата Биг 😳

источник

19:40пожаловаться #18

Den in Data Engineers

Я делал, важно понимать что они все равно потом в очередь становятся, поєтому если сабмитить параллельно то лучше в разные очереди

источник

19:41пожаловаться #19

tenKe in Data Engineers

Это не совсем верное утверждение. Если джоб 1 запустился в момент времени 1 и не выгреб все доступные ядра, то джоб 2 будет аллоцирован сразу и получит оставшиеся ядра под часть тасков

источник

19:42пожаловаться #20