Size: a a a

2019 November 05

VE

Vladimir E. in Data Engineers
но вот как есть
источник

EV

Eduard Vlasov in Data Engineers
попробуйте livy
источник

EV

Eduard Vlasov in Data Engineers
прямо с апи сервера
источник

EV

Eduard Vlasov in Data Engineers
у меня поделка на django+celery сделана
источник

VE

Vladimir E. in Data Engineers
у нас довольно сложная приложуха, которой ещё нужно и напрямую с hdfs работать и с hive, на ливи всё это переписывать - месяцы работы
источник

EV

Eduard Vlasov in Data Engineers
и эта же приложуха ходит в s3 и hive и что-то там меняет если надо
источник

EV

Eduard Vlasov in Data Engineers
но это все переделать придется, да
источник

VE

Vladimir E. in Data Engineers
мы там кучу динамических зависимостей (файлов) тянем, которые должны присутствовать на машине откуда спарк стартует
источник

AZ

Anton Zadorozhniy in Data Engineers
в EMR на HDFS не надо ничего особенного делать, это временное хранилище
источник

VE

Vladimir E. in Data Engineers
ну мы загружаем туда временные файлы :)
источник

EV

Eduard Vlasov in Data Engineers
)
источник

VE

Vladimir E. in Data Engineers
справочники и всё такое
источник

AZ

Anton Zadorozhniy in Data Engineers
Livy нужен для интерактива, на него удобно например юпитер посадить
источник

EV

Eduard Vlasov in Data Engineers
в EMR отлично все летит из s3
источник

VE

Vladimir E. in Data Engineers
да, но опять таки нужно переписывать
источник

EV

Eduard Vlasov in Data Engineers
Anton Zadorozhniy
Livy нужен для интерактива, на него удобно например юпитер посадить
согласен, но и батчи отлично разруливаются
источник

AZ

Anton Zadorozhniy in Data Engineers
пакетные джобы просто навешиваете в команду запуска кластера, терминация по успеху - все быстро и без лишних ресурсов
источник

EV

Eduard Vlasov in Data Engineers
Anton Zadorozhniy
пакетные джобы просто навешиваете в команду запуска кластера, терминация по успеху - все быстро и без лишних ресурсов
ну как, 10 минут оверхеда все равно есть
источник

C

Combot in Data Engineers
Mekiy Hossain has been banned! Reason: CAS ban.
источник

AZ

Anton Zadorozhniy in Data Engineers
Eduard Vlasov
ну как, 10 минут оверхеда все равно есть
ну вы же не держите эти кластера все время, можно запустить кластер, толкнуть последовательно джобы, тем более у вас наверняка maximizeResourceAllocation включен и параллельно запускать джобы смысла нет, и на последнем дропнуть кластер, и не нужно ничего снаружи оркестировать
источник