Size: a a a

2020 September 01

SS

Sergey Sheremeta in Data Engineers
руками менять оффсеты в чекпойнт-хранилище джоба?
источник

SS

Sergey Sheremeta in Data Engineers
остановить джоб и запустить заново с хитрыми настройками оффсета?  вроде можно для Кафки, но не для HDFS-каталога...
источник
2020 September 02

ПБ

Повелитель Бури... in Data Engineers
Доброе утро! Скажите пожалуйста
Зачем hdfs просит 9 нод, когда у меня 3 . Т.е. по идее я данные не потеряю
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Доброе утро! Скажите пожалуйста
Зачем hdfs просит 9 нод, когда у меня 3 . Т.е. по идее я данные не потеряю
Erasure Coding RS-6-3 ?
источник

ПБ

Повелитель Бури... in Data Engineers
Anton Zadorozhniy
Erasure Coding RS-6-3 ?
ага)
источник

AZ

Anton Zadorozhniy in Data Engineers
6 + 3 = 9
источник

ПБ

Повелитель Бури... in Data Engineers
я документацию почитал ) зачем ему еще 6? )
источник

A

Alex in Data Engineers
Что значит зачем?
источник

A

Alex in Data Engineers
6 блоков данных + 3 блока проверочных
источник

A

Alex in Data Engineers
Это не про репликацию, если блок потерян то на основе остальных его можно востановить
источник

АЖ

Андрей Жуков... in Data Engineers
Повелитель Бури
я документацию почитал ) зачем ему еще 6? )
 For the default EC policy of RS (6,3), this means minimally 9 racks, and around 10 or 11 to handle planned and unplanned outages
источник

A

Alex in Data Engineers
Чтобы минимизировать риски каждый на своей машине лежит
источник

АЖ

Андрей Жуков... in Data Engineers
документацию надо читать всю, а не только Getting Started :)
источник

ПБ

Повелитель Бури... in Data Engineers
другими словами  это обезопасить если весь шкаф упадет?
источник

Ж

Жмака in Data Engineers
Привет. Пытаюсь в скале аппликации запустить spark.sql запрос и выдает ошибку table or view not found. На уровне emr коефигурация hive.metastore.client.factory.class есть. Через спарк шелл могу запустить запрос. В аппликации трейт sparksessionsetup, который запускает сессию с конфигами и этот трецт экстендит сервис класс в котором весть flow и мэйн функция создает сервис инстанс и запускает метод execute в котором флоу. Не пойму в чем проблема
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
другими словами  это обезопасить если весь шкаф упадет?
Смотря на кого
источник

AZ

Anton Zadorozhniy in Data Engineers
Извините
источник

EV

Eduard Vlasov in Data Engineers
Привет! Ловлю ошибку SparkOutOfMemoryError, подскажите плиз куда можно покопать.
Пробовал увеличивать memoryOverhead и executor memory - пока не помогает. В запросе 2 window functions по разным полям, обрабатывается инфа за день, на некоторых днях работает норм, на некоторых нет.
источник

EV

Eduard Vlasov in Data Engineers
упавший стейдж
источник

EV

Eduard Vlasov in Data Engineers
пока смотрю чо за перекос в данных
источник