Size: a a a

2021 April 25

AZ

Anton Zadorozhniy in Data Engineers
Только BigQuery это никак не Hive или Presto, он работает с объектным стораджем медленно, туда надо данные грузить. Это скорее Clickhouse или Greenplum.
источник

e

er@essbase.ru in Data Engineers
Dremio :  
. Краткое содержание в двух словах.(для нетерпеливых) - распределеный кластер sql запросов , в котором данные хранятся в памяти в поколоночном формате. Позволяет колхозить витрины из любых источников по принципу view над view над view. Источник hadoop files , и традиционный sql.  Есть земная комьюнити версия.
(Apache Arrow - это они )

Миллиарды строк в доли секунд.

https://youtu.be/W9JvqMAc73Y
источник

AZ

Anton Zadorozhniy in Data Engineers
Надо наверное сказать что SQL со звёздочкой, это скорее чтобы ограниченно посмотреть уже готовые витрины, чем замена BigQuery
источник

АЖ

Андрей Жуков... in Data Engineers
Да, там скуль весьма порезанный и с весёлыми багами.
источник

AZ

Anton Zadorozhniy in Data Engineers
особенно с джоинами там бывают интересные эффекты, у нас архитекторы поэтому любят дремио, он в результате только увеличивает нагрузку на нашу базу, ну и больше людей получает доступ к этим данным
источник

ЕП

Евгений Погребняк... in Data Engineers
Подскажите пожалуйста между Airflow/Luigi и просто скриптами на питоне есть какие-то промежуточные по сложности инструменты? Если пайплайн пережевывает какие-то csv и пишет-читает в базу данных и какие-то шаги по минут 30 - какой следующий шаг в "оркестрации" по сравнению с чистым питоном и вызовом серии функций или скриптов? Заранее спасибо!
источник

e

er@essbase.ru in Data Engineers
Presto надёжнее ?
источник

Б

Борис in Data Engineers
Следующим шагом после cron+скрипты советуют NiFi.
источник

ЕП

Евгений Погребняк... in Data Engineers
Спасибо! Выглядит как графический инструмент и пишет, что скорее про миграцию между системами. Склоняюсь, что нужно просто засесть за Luigi (который сам в питоне). Нашел еше кучу всяких пайплайнов тут, но многие с 5-10 звездочками на гитхабе, явно не особо поддерживаемые: https://github.com/pditommaso/awesome-pipeline
источник

AZ

Anton Zadorozhniy in Data Engineers
Я не это писал, Presto и Dremio это не замена BigQuery в широком смысле, мб только для каких-то очень узких кейсов
источник

AZ

Anton Zadorozhniy in Data Engineers
NiFi это ужасный выбор для оркестрации джобов
источник

Б

Борис in Data Engineers
А чем плохо? И что выбрать в качестве альтернативы?
источник

AZ

Anton Zadorozhniy in Data Engineers
Вообще не для этого создавался, джоб нужно натягивать на концепцию flow file, нет нормального бэкфила, сложно делать декомпозицию, сам сервер приложений сделан ужасно
источник

AZ

Anton Zadorozhniy in Data Engineers
Вы скажите чем вам плохи Airflow или то чем вы пользуетесь?
источник

Б

Борис in Data Engineers
Я пока ничем не пользуюсь, прохожу курс по DE. Там приводили пример того что если переросли "крон+скрипты" нужна сложная логика, мониторинг и тд то берите nifi.
источник

ME

Max Efremov in Data Engineers
Nifi для стрима данных же
источник

AZ

Anton Zadorozhniy in Data Engineers
Наверное говорили про ingestion tools, а это другая область
источник

ME

Max Efremov in Data Engineers
А для оркестрации airflow, prefect
источник

ME

Max Efremov in Data Engineers
В облаках step functions мб
источник

Б

Борис in Data Engineers
Да про "ingestion tools" речь шла.
источник