Size: a a a

2020 October 08

DZ

Dmitry Zuev in Data Engineers
На нормальном рантайме
источник

AS

Andrey Smirnov in Data Engineers
Dmitry Zuev
То пусть возьмёт минимальный на дебиане
а потом ему понадобится еще нормальный питон, и приплыли
источник

UD

Uncel Duk in Data Engineers
источник

UD

Uncel Duk in Data Engineers
800 метров
источник

P

Pavel in Data Engineers
как сейчас модно писать в коментах на ютубе
docker: i came to free you of dependency hell
devcommunity: .i.
источник

DZ

Dmitry Zuev in Data Engineers
Pavel
как сейчас модно писать в коментах на ютубе
docker: i came to free you of dependency hell
devcommunity: .i.
Кто венвы каждый раз накатывает, тот над докером не смеётся
источник

OI

Oleg Ilinsky in Data Engineers
Oleg Ilinsky
Привет!
Вопрос!
Есть спарк. И я его запускал в клиент моде в кубах. Ща решил запустить в кластер моде, а он делает что-то странное:
все файлы (.py, jar, json) через s3 попадают в /tmp/spark-fa1d609c-9f6c-410f-a146-d65d01b567d5/ (spark-… генерится во время создания пода), а вот потом он эти файлы не видит, т.к. пытается искать файлы по тому же пути, что и на машине, с которой я запускаю, но в поде драйвера.
Мб опции какой не хватает? Чота бред какой-то.
UPD: такая лажа только с питоном. Со скалой всё работает (зависимости я пока не пробовал). Шо делать с пейтоном, хз)
источник

DN

Dmitriy Novikov in Data Engineers
пейтон, теперь так и буду его называть
источник

RS

Roman Selianko in Data Engineers
я слышал как кто то python называет пуфоном...
источник

AS

Andrey Smirnov in Data Engineers
сейчас слушал вебинар по применению Akka для IoT, в примере использовалась https://github.com/yugabyte/yugabyte-db база,
ее кто нибудь пробовал использовать?
источник

R

Rodion in Data Engineers
Всем привет, у меня отработали все джобы в моем спарк приложении и дальше оно висит минут 15-20 в такой стадии
 INFO Hive: Replacing src: .hive_staging/src dest: dest
.  Датафрейм не очень большой - 30гб, файлов создается 1000.  Что можно потюнить?
источник

P

Pavel in Data Engineers
источник

P

Pavel in Data Engineers
Флинк на кубе в режиме job cluster, первый чекпойнт чаще всего отрабаиывает, скидывает на s3, стейт  работает на rocksdb. Остальные чекпрйнты не скидываются, через некоторое время в fail. Знает кто??
источник

R

Roman in Data Engineers
Rodion
Всем привет, у меня отработали все джобы в моем спарк приложении и дальше оно висит минут 15-20 в такой стадии
 INFO Hive: Replacing src: .hive_staging/src dest: dest
.  Датафрейм не очень большой - 30гб, файлов создается 1000.  Что можно потюнить?
А данные куда сохраняете? Не в s3 ли?
источник

ME

Max Efremov in Data Engineers
В файловую или объектную систему?)
источник

R

Rodion in Data Engineers
Roman
А данные куда сохраняете? Не в s3 ли?
В шдфс через инсертинто
источник
2020 October 09

DT

Denis Tsvetkov in Data Engineers
Max Efremov
В файловую или объектную систему?)
<приготовил КРАСНЫЙ ФЛАЖОК 🚩 >
источник

O

Oleg in Data Engineers
Коллеги ни у кого нет dama-dbok? Нужна в личных целях, немного жаба давит платить  60$
источник

O

Oleg in Data Engineers
готов порадовать переводом на пиво или компот
источник

O

Oleg in Data Engineers
вторая часть
источник