Size: a a a

2020 October 21

АЖ

Андрей Жуков... in Data Engineers
Andrew Nasonov
А, хотя там не стриминг, там просто выгребать батчелопатой
вот именно
источник

AZ

Anton Zadorozhniy in Data Engineers
NiFi тоже подойдет, он правда не подарок
источник

AN

Andrew Nasonov in Data Engineers
Ну как не подарок
источник

AN

Andrew Nasonov in Data Engineers
Как троянский конь
источник

AZ

Anton Zadorozhniy in Data Engineers
там теймплейты можно делать и потом их инстансы плодить через апи
источник

AZ

Anton Zadorozhniy in Data Engineers
но мониторинг так себе
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Zadorozhniy
но мониторинг так себе
дык у конектов и аэйрфлоу тоже искаропки ну такое
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
дык у конектов и аэйрфлоу тоже искаропки ну такое
но лучше
источник

AZ

Anton Zadorozhniy in Data Engineers
эйрфлоу вообще не об этом к слову
источник

АЖ

Андрей Жуков... in Data Engineers
ну как оркестратор
источник

АЖ

Андрей Жуков... in Data Engineers
коннекторы-то хельмами раскатал с шаблонами да радуйся (нет)
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк это вообще о другом, что аэрфлоу оркестрировать должен
источник

АЖ

Андрей Жуков... in Data Engineers
как раз о том, рилтайм нинужон же в кейсе
источник

AZ

Anton Zadorozhniy in Data Engineers
как вариант посмотрите на дизайны Camus/Gobblin, там как раз батчовые приземлялки со стейтом в объектном хранилище, идемпотентные и масштабируемые, но код самих проектов устарел, можно попробовать реализовать такой дизайн (мы делали пару раз)
источник

AN

Andrew Nasonov in Data Engineers
Посмотрю, спасибо
источник

АЖ

Андрей Жуков... in Data Engineers
Gobblin прикольный
источник

AN

Andrew Nasonov in Data Engineers
Ну вот есть например ~1000 топиков. Мы хотим их в течение часа уложить в хдфс. Последовательно - не уложимся. А как параллелить обработку кучи разных топиков в спарке - не оч понятно, я не очень умный ( Отдельное приложение для каждого поднимать?
источник

AZ

Anton Zadorozhniy in Data Engineers
вообще надо бы подойти к снаряду снова и пересмотреть все, с прицелом на айсберг/худи
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Zadorozhniy
как вариант посмотрите на дизайны Camus/Gobblin, там как раз батчовые приземлялки со стейтом в объектном хранилище, идемпотентные и масштабируемые, но код самих проектов устарел, можно попробовать реализовать такой дизайн (мы делали пару раз)
А Azkaban не наследник ли gobblin?
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrew Nasonov
Ну вот есть например ~1000 топиков. Мы хотим их в течение часа уложить в хдфс. Последовательно - не уложимся. А как параллелить обработку кучи разных топиков в спарке - не оч понятно, я не очень умный ( Отдельное приложение для каждого поднимать?
камю как раз про это, там он анализирует метаданные, смотрит на список топиков и порождает мапредьюс нужных размеров чтобы каждый маппер тянул свой топик и набор партиций (в пределе - одну партицию)
источник