Size: a a a

2020 October 21

AP

Anton Polyakov in Data Engineers
Mitya Volodin
Хм… Нет. Не знаю. Есть канал по архитектуре данных, может там подскажут. Я кроме спецификаций на волт и энкор читал только материалы конференций и копался в моделях ))
а что за канал по архтектуре?
источник

MV

Mitya Volodin in Data Engineers
источник

MV

Mitya Volodin in Data Engineers
Там даже уже это спрашивали
источник

AP

Anton Polyakov in Data Engineers
спасибо!
источник

MV

Mitya Volodin in Data Engineers
Можно посмотреть в shared links/docs
источник

AZ

Anton Zadorozhniy in Data Engineers
чот как-то там сухо и по делу
источник

AZ

Anton Zadorozhniy in Data Engineers
тут веселее
источник

AN

Andrew Nasonov in Data Engineers
Господа дата инженеры, можете пожалуйста что-нибудь посоветовать по следующему кейсу?
Есть кафка, есть желание все что в ней было складывать в хдфс. Номинально в целях холодного хранения, однако все-таки данные частенько смотрят бизнес аналитики (больше никуда данные в таких объемах не пишутся), так что должна быть какая-то оперативность. Чем лучше всего организовать своевременный транспорт данных из кафки в хдфс, если кафка-коннект - не вариант? Пока что смотрели в сторону spark streaming и NiFi . Ощущение что первое - это из пушки по комарам, а второе - микроскопом гвозди
источник

АЖ

Андрей Жуков... in Data Engineers
ну и выгребайте спарком раз в час/день/неделю топики, раз холодное хранилище
источник

АЖ

Андрей Жуков... in Data Engineers
или оперативность - рилтайм?
источник

AN

Andrew Nasonov in Data Engineers
Нет, держим аналитиков в строгости)
источник

AN

Andrew Nasonov in Data Engineers
Как единое приложение со списком топиков организовать и поставить на расписание?
источник

АЖ

Андрей Жуков... in Data Engineers
ну, airflow, prefect, oozie и тому подобное
источник

АЖ

Андрей Жуков... in Data Engineers
но можно и нафаню
источник

АЖ

Андрей Жуков... in Data Engineers
сразу на все цели
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrew Nasonov
Господа дата инженеры, можете пожалуйста что-нибудь посоветовать по следующему кейсу?
Есть кафка, есть желание все что в ней было складывать в хдфс. Номинально в целях холодного хранения, однако все-таки данные частенько смотрят бизнес аналитики (больше никуда данные в таких объемах не пишутся), так что должна быть какая-то оперативность. Чем лучше всего организовать своевременный транспорт данных из кафки в хдфс, если кафка-коннект - не вариант? Пока что смотрели в сторону spark streaming и NiFi . Ощущение что первое - это из пушки по комарам, а второе - микроскопом гвозди
если у вас дистрибутив Confluent - берите Kafka Connect
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Zadorozhniy
если у вас дистрибутив Confluent - берите Kafka Connect
грит же, зобанено
источник

AN

Andrew Nasonov in Data Engineers
Нафаню ну такое, мануально создавать надо каждый раз поток или писать какую-то странную генерилку эксмелей (
А вот у нас не конфлюэнт, такие дела
источник

AN

Andrew Nasonov in Data Engineers
А шо там в даг запихивать? Тем более spark streaming штатно не завершишь
источник

AN

Andrew Nasonov in Data Engineers
А, хотя там не стриминг, там просто выгребать батчелопатой
источник