Телеграмм чат группы hadoopusers страница 3040

в компаниях с клаудом так не делают потому что:
- cloud-based кафка (или аналог) дороже чем object storage (с учетом ценника за сеть)
- потребность в GDPR hard delete where id=XXX
- как управлять правами доступа?

если все онпрем - ну наверное можно, только зачем головняк с настройкой архивного кластера?

Ну сделать миррор кафки или увеличить 1 переменную в настройках проще, чем городить вот эту спарковскую петрушку

источник

21:15пожаловаться #7

Grigory Pomadchin in Data Engineers

Иван Калининский

Spark шафлит в локальные директории, localCheckpoint по такому же принципу?

кстати я не понял что значит шафлит в локальные директории

источник

21:18пожаловаться #8

Stanislav in Data Engineers

Да, разговор про онпрем. Хотя gpdr тоже интересен, но процессить его на сырье мало отличается от переливки кафки, мне кажется. Слишком низкоуровневые данные и все равно поднимать все. Извращенно, да :)

источник

21:18пожаловаться #9

ИК

Иван Калининский... in Data Engineers

Grigory Pomadchin

он ради такой операции конечно же не будет делать редьюс и пихать все на одну машину

Я понял, спасибо.

Можно пояснить более практический момент, например, если создан RDD, идут трансформации, один из тасков фейлится четыре раза (лимит ретраев) и приложение аварийно завершается с исключением job aborted, то при каких настройках его можно восстановить с последнего чекпоинта?

источник

21:22пожаловаться #10

Grigory Pomadchin in Data Engineers

а поч нет? если чекйпонт был успешный
чекйпонт предполагает полный рекомпут рдды

источник

21:23пожаловаться #11

Grigory Pomadchin in Data Engineers

хватит ресурсов то зарекаверится

источник

21:23пожаловаться #12

ИК

Иван Калининский... in Data Engineers

Grigory Pomadchin

кстати я не понял что значит шафлит в локальные директории

Насколько я знаю, Spark создаёт shuffle файлы во время "широких" трансформаций как раз в локальных директориях, и мне говорили, что эти shuffle файлы могут обеспечить восстановление, если перезапускается стейдж

источник

21:25пожаловаться #13

Grigory Pomadchin in Data Engineers

Иван Калининский

ну эт уже детали шаффла)

источник

21:30пожаловаться #14

Grigory Pomadchin in Data Engineers

дейсвительно ретраи тасков конечное колво раз случаться могут

источник

21:30пожаловаться #15

Grigory Pomadchin in Data Engineers

переодически спилл он делает шаффла

источник

21:30пожаловаться #16

ИК

Иван Калининский... in Data Engineers

Grigory Pomadchin

а поч нет? если чекйпонт был успешный
чекйпонт предполагает полный рекомпут рдды

То есть, джоб понимает, что это его чекпоинта, можно начинать с точки, когда memento отработал и заперсистил состояние? Но это отдельный джоб, а если их несколько ( или даже очень много, сотни тысяч)

источник

21:30пожаловаться #17

Grigory Pomadchin in Data Engineers

отдельный
надо логику рекавера отрабатывать https://jaceklaskowski.gitbooks.io/mastering-spark-sql/content/spark-sql-checkpointing.html

jaceklaskowski.gitbooks.io

Dataset Checkpointing · The Internals of Spark SQL

источник

21:31пожаловаться #18

Grigory Pomadchin in Data Engineers

Иван Калининский

не путай персист и чекйпонт

источник

21:32пожаловаться #19

Grigory Pomadchin in Data Engineers

это разные операции

источник

21:32пожаловаться #20