Size: a a a

2020 December 14

GP

Grigory Pomadchin in Data Engineers
поэтому в целом идея локал чекйпонтов не для рекавери
источник

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
ничего он не шафлит локал чекпойнт
Это ясно, я про принцип
источник

GP

Grigory Pomadchin in Data Engineers
ну смотри у тебя куски фрейма в памяти валяются
источник

GP

Grigory Pomadchin in Data Engineers
вот делашеь чекйпонт
источник

GP

Grigory Pomadchin in Data Engineers
оно у тебя берет и в локал диру персистит куски
каждый ехекутор свое
источник

GP

Grigory Pomadchin in Data Engineers
он ради такой операции конечно же не будет делать редьюс и пихать все на одну машину
источник

S

Stanislav in Data Engineers
Renarde
в компаниях с клаудом так не делают потому что:
- cloud-based кафка (или аналог) дороже чем object storage (с учетом ценника за сеть)
- потребность в GDPR hard delete where id=XXX
- как управлять правами доступа?

если все онпрем - ну наверное можно, только зачем головняк с настройкой архивного кластера?
Ну сделать миррор кафки или увеличить 1 переменную в настройках проще, чем городить вот эту спарковскую петрушку
источник

GP

Grigory Pomadchin in Data Engineers
Иван Калининский
Spark шафлит в локальные директории, localCheckpoint по такому же принципу?
кстати я не понял что значит шафлит в локальные директории
источник

S

Stanislav in Data Engineers
Да, разговор про онпрем. Хотя gpdr тоже интересен, но процессить его на сырье мало отличается от переливки кафки, мне кажется. Слишком низкоуровневые данные и все равно поднимать все. Извращенно, да :)
источник

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
он ради такой операции конечно же не будет делать редьюс и пихать все на одну машину
Я понял, спасибо.

Можно пояснить более практический момент, например, если создан RDD, идут трансформации,  один из тасков фейлится четыре раза (лимит ретраев) и приложение аварийно завершается с исключением job aborted, то при каких настройках его можно восстановить с последнего чекпоинта?
источник

GP

Grigory Pomadchin in Data Engineers
а поч нет? если чекйпонт был успешный
чекйпонт предполагает полный рекомпут рдды
источник

GP

Grigory Pomadchin in Data Engineers
хватит ресурсов то зарекаверится
источник

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
кстати я не понял что значит шафлит в локальные директории
Насколько я знаю, Spark создаёт shuffle файлы во время "широких" трансформаций как раз в локальных директориях, и мне говорили, что эти shuffle файлы могут обеспечить восстановление, если перезапускается стейдж
источник

GP

Grigory Pomadchin in Data Engineers
Иван Калининский
Насколько я знаю, Spark создаёт shuffle файлы во время "широких" трансформаций как раз в локальных директориях, и мне говорили, что эти shuffle файлы могут обеспечить восстановление, если перезапускается стейдж
ну эт уже детали шаффла)
источник

GP

Grigory Pomadchin in Data Engineers
дейсвительно ретраи тасков конечное колво раз случаться могут
источник

GP

Grigory Pomadchin in Data Engineers
переодически спилл он делает шаффла
источник

ИК

Иван Калининский... in Data Engineers
Grigory Pomadchin
а поч нет? если чекйпонт был успешный
чекйпонт предполагает полный рекомпут рдды
То есть, джоб понимает, что это его чекпоинта, можно начинать с точки, когда memento отработал и заперсистил состояние? Но это отдельный джоб, а если их несколько ( или даже очень много, сотни тысяч)
источник

GP

Grigory Pomadchin in Data Engineers
отдельный
надо логику рекавера отрабатывать https://jaceklaskowski.gitbooks.io/mastering-spark-sql/content/spark-sql-checkpointing.html
источник

GP

Grigory Pomadchin in Data Engineers
Иван Калининский
То есть, джоб понимает, что это его чекпоинта, можно начинать с точки, когда memento отработал и заперсистил состояние? Но это отдельный джоб, а если их несколько ( или даже очень много, сотни тысяч)
не путай персист и чекйпонт
источник

GP

Grigory Pomadchin in Data Engineers
это разные операции
источник