Телеграмм чат группы hadoopusers страница 2599

Привет. Я очередной новичек в hadoope)) И столкнулся с такой проблемой что при запуске mapreduce задачи через oozie она зависает в статусе accepted. Запускаю на собственном кластере развернутом через cloudera. Подскажите пожалуйста как решить данную проблему

источник

23:57пожаловаться #6

2020 August 02

ЕГ

Евгений Глотов... in Data Engineers

Nurdinov Denis

Привет. Я очередной новичек в hadoope)) И столкнулся с такой проблемой что при запуске mapreduce задачи через oozie она зависает в статусе accepted. Запускаю на собственном кластере развернутом через cloudera. Подскажите пожалуйста как решить данную проблему

Может не хватать ресурсов для запуска, учли одно ядро в ярне для драйвера?

источник

00:19пожаловаться #7

ND

Nurdinov Denis in Data Engineers

источник

00:39пожаловаться #8

ND

Nurdinov Denis in Data Engineers

Вроде да

источник

00:39пожаловаться #9

ЕГ

Евгений Глотов... in Data Engineers

Nurdinov Denis

Мемори тотал 1 гиг

источник

01:18пожаловаться #10

ЕГ

Евгений Глотов... in Data Engineers

Возможно мало, нужно смотреть, какого размера контейнер запрашивает приложение

источник

01:19пожаловаться #11

ЕГ

Евгений Глотов... in Data Engineers

Насколько я помню, меньше, чем на 2 гигах, джава не работает)

источник

01:19пожаловаться #12

PK

Pavel Klemenkov in Data Engineers

Привет. А подскажите, какие есть стандартные таксономии для дата пайплайнов?

источник

11:33пожаловаться #13

PK

Pavel Klemenkov in Data Engineers

Давайте сразу пример приведу, что хочется сделать

источник

11:35пожаловаться #14

PK

Pavel Klemenkov in Data Engineers

Короче есть стек. Данные читаются из кафки спарк стриммингом и раскладываются в HDFS, ELK, Clikhouse, etc. Над данными в HDFS молотят джобы Hive, Spark, MapReduce, которые готовят аналитические витрины, либо датасеты для ML. Отдельно учатся ML-модельки, отдельно инферятся либо тем же спарком, либо кастомными сервисами. Хочется это разложить на понятные группы. Типа data ingestion - kafka + spark streaming, ETL - Spark, Hive, MapReduce, что-то еще Clickhouse, что-то еще обучение моделей, что-то еще - инференс моделей. Нагуглить вменяемую таксономию компонени не смог

источник

11:38пожаловаться #15

ND

Nurdinov Denis in Data Engineers

Ок. Спасибо. Сегодня попробую поменять total memory

источник

11:40пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Pavel Klemenkov

Короче есть стек. Данные читаются из кафки спарк стриммингом и раскладываются в HDFS, ELK, Clikhouse, etc. Над данными в HDFS молотят джобы Hive, Spark, MapReduce, которые готовят аналитические витрины, либо датасеты для ML. Отдельно учатся ML-модельки, отдельно инферятся либо тем же спарком, либо кастомными сервисами. Хочется это разложить на понятные группы. Типа data ingestion - kafka + spark streaming, ETL - Spark, Hive, MapReduce, что-то еще Clickhouse, что-то еще обучение моделей, что-то еще - инференс моделей. Нагуглить вменяемую таксономию компонени не смог

мы обычно называем от архитектуры даталейка/решения: ingestion job/process (иногда landing job/process), curation pipeline, integration pipeline, data product job, product delivery / export job..

источник

11:48пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

о какой-то единой таксономии в отрасли я не знаю, кто во что горазд

источник

11:48пожаловаться #18

PK

Pavel Klemenkov in Data Engineers

Anton Zadorozhniy

мы обычно называем от архитектуры даталейка/решения: ingestion job/process (иногда landing job/process), curation pipeline, integration pipeline, data product job, product delivery / export job..

А можешь кинуть пример, как вы это раскладываете?

источник

11:50пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Pavel Klemenkov

А можешь кинуть пример, как вы это раскладываете?

дм

источник

11:54пожаловаться #20