Телеграмм чат группы hadoopusers страница 2755

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1971 membersпожаловаться на группу

2020 September 15

ME

Max Efremov in Data Engineers

Всем привет, подскажите пожалуйста, какие бест пректизы с использованием спарка и эйрфлоу. Нужно ручками собирать джарник и подсовывать или есть какие-то более изящные решения?

мы юзаем пайтон оператор, а внутри вызываем livy :)

источник

16:02пожаловаться #1

ME

Max Efremov in Data Engineers

не претендую на правильность, но работает

источник

16:02пожаловаться #2

С

Сюткин in Data Engineers

Всем привет, подскажите пожалуйста, какие бест пректизы с использованием спарка и эйрфлоу. Нужно ручками собирать джарник и подсовывать или есть какие-то более изящные решения?

У нас есть спарклиентоператор,который все поднимает

источник

16:06пожаловаться #3

С

Сюткин in Data Engineers

Если интересно,ты знаешь где меня найти

источник

16:06пожаловаться #4

SS

Sergey Sheremeta in Data Engineers

Всем привет, подскажите пожалуйста, какие бест пректизы с использованием спарка и эйрфлоу. Нужно ручками собирать джарник и подсовывать или есть какие-то более изящные решения?

я поделюсь нашим вариантом, может коллеги прокомментируют...

1) код Spark/Scala держим в отдельном gitlab-репо, там гоняем тесты. делаем сборку и деплой джарника в Nexus-репощиторий
2) в отдельном gitlab-репо храним ДАГи Airflow, которые содержат логику шедулинг (запускать раз в час), ссылку на имя джарника и имя App-класса с нужной логикой Спарка.
3) запуск спарк-задания происходит в теле ДАГа Airflow через LivyBatchOperator, которому передается url до джарника в Nexus и имя App-класса. причем URL до джарника содержит переменную часть (версия сборки), которая хранится в переменных Airflow
4) в ходе CI/CD-деплоя git-репо со Spark-кодом через Airflow REST API обновляется переменная в Airflow, указывающая на актуальную версию джарника в Nexus

источник

16:08пожаловаться #5

DZ

Dmitry Zuev in Data Engineers

Всем привет, подскажите пожалуйста, какие бест пректизы с использованием спарка и эйрфлоу. Нужно ручками собирать джарник и подсовывать или есть какие-то более изящные решения?

Тк у нас все на k8s , мы написали оператор который сабмитит SparkApplication (see k8s spark operator) и ждет его результата. В качестве образа указываем собранный с нашей джаркой, и в зависимости от окружения берем нужный тег образа (latest- prod, branch-slug - devs) и делаем pullPolicy=Always

источник

16:14пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

Сюткин

У нас есть спарклиентоператор,который все поднимает

чем он отличается от гуглового?

источник

16:17пожаловаться #7

R

Rodion in Data Engineers

чем он отличается от гуглового?

ты про сабмит в кубер?

источник

17:15пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

я про оператор

источник

17:16пожаловаться #9

DZ

Dmitry Zuev in Data Engineers

у вас свой кубер оператор?

источник

17:16пожаловаться #10

R

Rodion in Data Engineers

у нас нет кубера

источник

17:16пожаловаться #11

DZ

Dmitry Zuev in Data Engineers

или свой аф оператор?

источник

17:16пожаловаться #12

DZ

Dmitry Zuev in Data Engineers

аа

источник

17:16пожаловаться #13

AE

Alexey Evdokimov in Data Engineers

кто-нить знает альтернативу apache poi?

а то вот понадобилось репорт в ексельник завернуть, но смотрю я на xssf и просто охуеваю. оно явно жопой написано, баг на баге и вообще полный трэш

источник

17:48пожаловаться #14

N

Nikita Blagodarnyy in Data Engineers

не проще будет пентаху/жаспер поставить?

источник

17:57пожаловаться #15

DZ

Dmitry Zuev in Data Engineers

ну лучше пои ничего не нашли пока

источник

17:57пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Я видел вариант с небольшой виндовой машиной которую поднимают чтобы что-то там нативным стеком обработать

источник

18:05пожаловаться #17

AT

Al T in Data Engineers

ну это прям уже чересчур, ну так же нельзя...

источник

18:17пожаловаться #18

AT

Al T in Data Engineers

я небольшую виндовую машину даж и не видел

источник

18:17пожаловаться #19

A

Artem in Data Engineers

Alexey Evdokimov

кто-нить знает альтернативу apache poi?

а то вот понадобилось репорт в ексельник завернуть, но смотрю я на xssf и просто охуеваю. оно явно жопой написано, баг на баге и вообще полный трэш

Mожно http://jxls.sourceforge.net посмотреть - такой excel template engine поверх apache poi. Но он тоже достаточно специфичесикий))

источник

18:27пожаловаться #20