Size: a a a

2020 August 01

DZ

Dmitry Zuev in Data Engineers
Хайв норм
источник

АК

Андрей Купин... in Data Engineers
Только он range join не умеет
источник

AS

Andrey Smirnov in Data Engineers
Андрей Купин
Только он range join не умеет
Так и спарк не умеет
источник

АК

Андрей Купин... in Data Engineers
Andrey Smirnov
Так и спарк не умеет
А как в спарке решаются подобные задачи?
источник

AS

Andrey Smirnov in Data Engineers
Мне хватало бакетов и поиска внутри них, но возможно есть более правильные вещи
источник

ND

Nurdinov Denis in Data Engineers
Привет. Я очередной новичек в hadoope)) И столкнулся с такой проблемой что при запуске mapreduce задачи через oozie она зависает в статусе accepted. Запускаю на собственном кластере развернутом через cloudera. Подскажите пожалуйста как решить данную проблему
источник
2020 August 02

ЕГ

Евгений Глотов... in Data Engineers
Nurdinov Denis
Привет. Я очередной новичек в hadoope)) И столкнулся с такой проблемой что при запуске mapreduce задачи через oozie она зависает в статусе accepted. Запускаю на собственном кластере развернутом через cloudera. Подскажите пожалуйста как решить данную проблему
Может не хватать ресурсов для запуска, учли одно ядро в ярне для драйвера?
источник

ND

Nurdinov Denis in Data Engineers
источник

ND

Nurdinov Denis in Data Engineers
Вроде да
источник

ЕГ

Евгений Глотов... in Data Engineers
Nurdinov Denis
Мемори тотал 1 гиг
источник

ЕГ

Евгений Глотов... in Data Engineers
Возможно мало, нужно смотреть, какого размера контейнер запрашивает приложение
источник

ЕГ

Евгений Глотов... in Data Engineers
Насколько я помню, меньше, чем на 2 гигах, джава не работает)
источник

PK

Pavel Klemenkov in Data Engineers
Привет. А подскажите, какие есть стандартные таксономии для дата пайплайнов?
источник

PK

Pavel Klemenkov in Data Engineers
Давайте сразу пример приведу, что хочется сделать
источник

PK

Pavel Klemenkov in Data Engineers
Короче есть стек. Данные читаются из кафки спарк стриммингом и раскладываются в HDFS, ELK, Clikhouse, etc. Над данными в HDFS молотят джобы Hive, Spark, MapReduce, которые готовят аналитические витрины, либо датасеты для ML. Отдельно учатся ML-модельки, отдельно инферятся либо тем же спарком, либо кастомными сервисами. Хочется это разложить на понятные группы. Типа data ingestion - kafka + spark streaming, ETL - Spark, Hive, MapReduce, что-то еще Clickhouse, что-то еще обучение моделей, что-то еще - инференс моделей. Нагуглить вменяемую таксономию компонени не смог
источник

ND

Nurdinov Denis in Data Engineers
Ок. Спасибо. Сегодня попробую поменять total memory
источник

AZ

Anton Zadorozhniy in Data Engineers
Pavel Klemenkov
Короче есть стек. Данные читаются из кафки спарк стриммингом и раскладываются в HDFS, ELK, Clikhouse, etc. Над данными в HDFS молотят джобы Hive, Spark, MapReduce, которые готовят аналитические витрины, либо датасеты для ML. Отдельно учатся ML-модельки, отдельно инферятся либо тем же спарком, либо кастомными сервисами. Хочется это разложить на понятные группы. Типа data ingestion - kafka + spark streaming, ETL - Spark, Hive, MapReduce, что-то еще Clickhouse, что-то еще обучение моделей, что-то еще - инференс моделей. Нагуглить вменяемую таксономию компонени не смог
мы обычно называем от архитектуры даталейка/решения: ingestion job/process (иногда landing job/process), curation pipeline, integration pipeline, data product job, product delivery / export job..
источник

AZ

Anton Zadorozhniy in Data Engineers
о какой-то единой таксономии в отрасли я не знаю, кто во что горазд
источник

PK

Pavel Klemenkov in Data Engineers
Anton Zadorozhniy
мы обычно называем от архитектуры даталейка/решения: ingestion job/process (иногда landing job/process), curation pipeline, integration pipeline, data product job, product delivery / export job..
А можешь кинуть пример, как вы это раскладываете?
источник

AZ

Anton Zadorozhniy in Data Engineers
Pavel Klemenkov
А можешь кинуть пример, как вы это раскладываете?
дм
источник