Size: a a a

2020 August 29

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
Это в смысле запрещать больше Х дагов делать разработчикам?
Ну несколько инстансов эирфлоу
источник

A

Alex in Data Engineers
Что-то чаще, что-то реже, хадуп под 100к в сутки прогоняет приложений, подавляющее большинство из узи
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Ну несколько инстансов эирфлоу
Запускать несколько инстансов чего-то это не скейлинг?
источник

A

Alex in Data Engineers
А потом ещё рассказать девелоперам для этого используйте 1 инстанс, а для этого 2й, для того 3й
источник

MS

Maxim Snesarev in Data Engineers
Всем привет

Что посоветуете для автообучения на картинках/видео в плане пайплайна

Из особенностей pytorch и self hosted
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
А потом ещё рассказать девелоперам для этого используйте 1 инстанс, а для этого 2й, для того 3й
DNS балансировка между разными группами :)
источник

A

Alex in Data Engineers
Парни из датабанда там комитили на оптимизации запросов в самом эйрфлоу, даже статья была на медиум, но они сразу сказали что на нашем масштабе нам несколько инстансов понадобится, а нам этого не хочется
источник

A

Alex in Data Engineers
В общем на мелких масштабах эйрфлоу ещё ок, но при сложных задачах как-то мне он не сильно зашёл..... Возможно не умею готовить
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
Запускать несколько инстансов чего-то это не скейлинг?
вы правы , что на очень большом количестве пайплайнов , ози будет лучше выглядеть,но я больше о том, что 1 - на эирфлоу отлично запускаются спарк приложения , которые не нагибают непосредственно машину на которой запущен эирфлоу,второе очень много даёт ci/cd, плюс самое главное - с эирфлоу можно добиться больше изоляции - подымать среды по требованию,  тестировать локально,  и  иметь лучшую поддержку со стороны ide и тестирования пайплайна
источник

K

KrivdaTheTriewe in Data Engineers
А дсл для оззи все как не появился поддерживаемый так и не появится судя по всему
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
В общем на мелких масштабах эйрфлоу ещё ок, но при сложных задачах как-то мне он не сильно зашёл..... Возможно не умею готовить
Все так, масштабирование и HA эйрфлоу это большая инженерная задача, чаще он бежит во всяких песочницах.. ну или менеджд версия как у гугла
источник

A

Alex in Data Engineers
KrivdaTheTriewe
вы правы , что на очень большом количестве пайплайнов , ози будет лучше выглядеть,но я больше о том, что 1 - на эирфлоу отлично запускаются спарк приложения , которые не нагибают непосредственно машину на которой запущен эирфлоу,второе очень много даёт ci/cd, плюс самое главное - с эирфлоу можно добиться больше изоляции - подымать среды по требованию,  тестировать локально,  и  иметь лучшую поддержку со стороны ide и тестирования пайплайна
Вот первое я вообще не понял про что, а какая система не умеет подымать спарк нормально?
источник

A

Alex in Data Engineers
Когда драйвер тоже в кластере запущен
источник

K

KrivdaTheTriewe in Data Engineers
Alex
Вот первое я вообще не понял про что, а какая система не умеет подымать спарк нормально?
Ну запускаете spark app в кластер моде - непосредственно эирфлоу не нагружен и  можно много задач запустить
источник

R

Roman in Data Engineers
KrivdaTheTriewe
Ну запускаете spark app в кластер моде - непосредственно эирфлоу не нагружен и  можно много задач запустить
Дак с oozie тоже самое.
источник

R

Roman in Data Engineers
И на счетов тестов дагов в oozie - тоже тестить можно, но только корректность дага, что все транзишены норм и так далее.
Единственное что больно - это локально запускать даги, видимо в этом большой плюс у эирфлоу.
источник

АР

Андрей Романов... in Data Engineers
вот же что-то загуглилось для oozie, в ямл-формате

https://codeascraft.com/2015/12/16/introducing-arbiter-a-utility-for-generating-oozie-workflows/
источник

АР

Андрей Романов... in Data Engineers
или это неактуально?
источник

АР

Андрей Романов... in Data Engineers
вижу, репа заархивирована, последний коммит в 2019
источник

АР

Андрей Романов... in Data Engineers
источник