Телеграмм чат группы hadoopusers страница 2851

Привет!
Вопрос!
Есть спарк. И я его запускал в клиент моде в кубах. Ща решил запустить в кластер моде, а он делает что-то странное:
все файлы (.py, jar, json) через s3 попадают в /tmp/spark-fa1d609c-9f6c-410f-a146-d65d01b567d5/ (spark-… генерится во время создания пода), а вот потом он эти файлы не видит, т.к. пытается искать файлы по тому же пути, что и на машине, с которой я запускаю, но в поде драйвера.
Мб опции какой не хватает? Чота бред какой-то.

UPD: такая лажа только с питоном. Со скалой всё работает (зависимости я пока не пробовал). Шо делать с пейтоном, хз)

источник

19:18пожаловаться #7

Dmitriy Novikov in Data Engineers

пейтон, теперь так и буду его называть

источник

19:28пожаловаться #8

Roman Selianko in Data Engineers

я слышал как кто то python называет пуфоном...

источник

19:29пожаловаться #9

Andrey Smirnov in Data Engineers

сейчас слушал вебинар по применению Akka для IoT, в примере использовалась https://github.com/yugabyte/yugabyte-db база,
ее кто нибудь пробовал использовать?

GitHub

yugabyte/yugabyte-db

The high-performance distributed SQL database for global, internet-scale apps. - yugabyte/yugabyte-db

источник

20:19пожаловаться #10

Rodion in Data Engineers

Всем привет, у меня отработали все джобы в моем спарк приложении и дальше оно висит минут 15-20 в такой стадии

 INFO Hive: Replacing src: .hive_staging/src dest: dest

. Датафрейм не очень большой - 30гб, файлов создается 1000. Что можно потюнить?

источник

22:00пожаловаться #11

Pavel in Data Engineers

источник

22:12пожаловаться #12

Pavel in Data Engineers

Флинк на кубе в режиме job cluster, первый чекпойнт чаще всего отрабаиывает, скидывает на s3, стейт работает на rocksdb. Остальные чекпрйнты не скидываются, через некоторое время в fail. Знает кто??

источник

22:12пожаловаться #13

Roman in Data Engineers

Rodion

Всем привет, у меня отработали все джобы в моем спарк приложении и дальше оно висит минут 15-20 в такой стадии

 INFO Hive: Replacing src: .hive_staging/src dest: dest

. Датафрейм не очень большой - 30гб, файлов создается 1000. Что можно потюнить?

А данные куда сохраняете? Не в s3 ли?

источник

23:00пожаловаться #14

Max Efremov in Data Engineers

В файловую или объектную систему?)

источник

23:09пожаловаться #15

Rodion in Data Engineers

Roman

А данные куда сохраняете? Не в s3 ли?

В шдфс через инсертинто

источник

23:10пожаловаться #16

2020 October 09

Denis Tsvetkov in Data Engineers

Max Efremov

В файловую или объектную систему?)

<приготовил КРАСНЫЙ ФЛАЖОК 🚩 >

источник

14:58пожаловаться #17

Oleg in Data Engineers

Коллеги ни у кого нет dama-dbok? Нужна в личных целях, немного жаба давит платить 60$

источник

15:53пожаловаться #18

Oleg in Data Engineers

готов порадовать переводом на пиво или компот

источник

15:53пожаловаться #19

Oleg in Data Engineers

вторая часть

источник

15:54пожаловаться #20