Size: a a a

2020 December 14

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
не путай персист и чекйпонт
Вот я и не хочу их путать, исторически сложилось, что persist (cache) не помог на рабочих данных ни разу, только на метаинформации. А чекпоинта не использовал вообще, видя аннотацию Experimental. Хотя сейчас может быть очень актуально, потому что для восстановления я делю приложение на этапы, этапы на шаги и так далее. Приложение само узнаёт, где завершилось и надо ли продолжать. Но если какой-то шаг длится несколько часов и падает ближе к окончанию, то мой подход не годится. Похоже, чекпоинты могли бы помочь, но я не уверен, что их вообще можно использовать в проде с таким описанием
источник

GP

Grigory Pomadchin in Data Engineers
можно использовать их в проде
источник

GP

Grigory Pomadchin in Data Engineers
но тебе перед исопльзованием чекпйонта придется использовать кеш
источник

GP

Grigory Pomadchin in Data Engineers
так что ситуация патовая
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
чекпойнт афаик триггерит рекомпут всей рдд / датасета
так что без кеша перед чекпойнтом ты рискуешь два раза делать одно и тоже
источник

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
чекпойнт афаик триггерит рекомпут всей рдд / датасета
так что без кеша перед чекпойнтом ты рискуешь два раза делать одно и тоже
Извини, не могу понять, в чем же профит?
источник

GP

Grigory Pomadchin in Data Engineers
Иван Калининский
Извини, не могу понять, в чем же профит?
рестарт на фейле и транкейт дага
источник

GP

Grigory Pomadchin in Data Engineers
в млях пригождается часто для линеаризации рдд
источник

GP

Grigory Pomadchin in Data Engineers
ну над просто по месту использовать
скажем бездумный кеш / персист действительно чаще всего только захламляет память кластера
источник

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
рестарт на фейле и транкейт дага
Спасибо!
Я прочитаю, что пишет Яцек, поищу статьи и попробую применить обычные чекпоинты там, где они могут быть полезны
источник

GP

Grigory Pomadchin in Data Engineers
хорошая идея, лучше чем он нет вообще источников по спарку
источник

R

Roman in Data Engineers
Grigory Pomadchin
хорошая идея, лучше чем он нет вообще источников по спарку
На сайте спарка, в доках видел примеры из источника Яцека) как мне показалось, сначала Яцек у себя написал их, а потом со временем, они попали в офф доку.

(как правильно его имя пишется, не знаю, к сожалению)
источник

GP

Grigory Pomadchin in Data Engineers
Roman
На сайте спарка, в доках видел примеры из источника Яцека) как мне показалось, сначала Яцек у себя написал их, а потом со временем, они попали в офф доку.

(как правильно его имя пишется, не знаю, к сожалению)
проще по его доке навигироаться тогда уж)
источник

N

Nikita Blagodarnyy in Data Engineers
Ребя, кто знает, в настройке fair-scheduler в yarn можно вот так комбинировать настройки-минимум в килограммах, а максимум в процентах?
источник

ИК

Иван Калининский... in Data Engineers
Roman
На сайте спарка, в доках видел примеры из источника Яцека) как мне показалось, сначала Яцек у себя написал их, а потом со временем, они попали в офф доку.

(как правильно его имя пишется, не знаю, к сожалению)
Его имя уже что-то вроде мема))
Но объём spark, походу, такой огромный, что FixMe на ресурсах Яцека встречаются повсеместно, меня это сильно раздражает
источник
2020 December 15

e

er@essbase.ru in Data Engineers
Вопрос - кто нибудь делает тестирование проектов BD ? на каких принципах построено ?
источник

SS

Sergey Sheremeta in Data Engineers
er@essbase.ru
Вопрос - кто нибудь делает тестирование проектов BD ? на каких принципах построено ?
источник

SS

Sergey Sheremeta in Data Engineers
источник

SS

Sergey Sheremeta in Data Engineers
это про интеграционное и юнит-тестирование, а вот про дата-кволити - https://cprosenjit.medium.com/implementing-data-quality-with-amazon-deequ-apache-spark-adcdf7c0a8da
источник