Size: a a a

2019 December 06

A

Alex in Data Engineers
просто я так и не нашёл гарантий в ярне что он поместит твой контейнер на том хосте где ты запросыли, только определенные рекомендации где бы ты хотел стартовать
источник

N

Nikita Blagodarnyy in Data Engineers
Ребята из ОК как-то рассказывали, что частично отказались от spark и перешли на pig, потому что спарк не релизит память после выполнения тасков и не освобождает контейнеры. Так что у него в загашнике всегда чуток имеется.
источник

DZ

Dmitry Zuev in Data Engineers
источник

DZ

Dmitry Zuev in Data Engineers
Pig 2019?
источник

N

Nikita Blagodarnyy in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
хотя может это я упоротый был и не так его понял.
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
Ребята из ОК как-то рассказывали, что частично отказались от spark и перешли на pig, потому что спарк не релизит память после выполнения тасков и не освобождает контейнеры. Так что у него в загашнике всегда чуток имеется.
dynamic allocation уже был в те времена
источник

d

ddre_z in Data Engineers
Anton Shelin
10 GB в CSV это немного. при чтении в память это думаю спокойно влезет и в 4 GB. если же у вас проблема вообще сложная то напишите скрипты. один должен отсортировать строки всех файлов по ключу. второй скрипт для мерджа должен просто бежать последовательно по 2м файлам и соединять ключи и результат писать в файл. думаю так вы уложитесь даже в килобайты
пытался бродкаст джоином сделать, выставлял repartition на 900, дал драйверу 11 гигов и увеличил время бродкаст джоина, сваливается с Out of Memory (
источник

d

ddre_z in Data Engineers
источник

d

ddre_z in Data Engineers
помогите, пожалуйста, решить задачу по джоину двух меньших csv с одним большим
источник

DZ

Dmitry Zuev in Data Engineers
чем скасти плох?
источник

d

ddre_z in Data Engineers
Dmitry Zuev
чем скасти плох?
тем что я не знаю что это такое)
источник

DZ

Dmitry Zuev in Data Engineers
а код без подсветки типа норм?
источник

DZ

Dmitry Zuev in Data Engineers
зачем бродкаст?
источник

DZ

Dmitry Zuev in Data Engineers
зачем ренеймы, а не схема?
источник

DZ

Dmitry Zuev in Data Engineers
trainDF у вас Unit
источник

DZ

Dmitry Zuev in Data Engineers
ddre_z
пытался бродкаст джоином сделать, выставлял repartition на 900, дал драйверу 11 гигов и увеличил время бродкаст джоина, сваливается с Out of Memory (
а чем тут репартишн поможет. будет дикий шафл да всё
источник

d

ddre_z in Data Engineers
Dmitry Zuev
trainDF у вас Unit
хотел для наглядности глянуть что все же сдожинилось
источник

DZ

Dmitry Zuev in Data Engineers
да, но show возвращает Unit
источник

DZ

Dmitry Zuev in Data Engineers
он покажет конечно
источник