Телеграмм чат группы hadoopusers страница 3858

Нет, так не получается. Драйвер создает один или несколько DAG, каждый из которых это Job, обработка RDD, перевод его из начального состояния в конечное состояние. Job делится на один или несколько Stage. Несколько стейджей будет, если есть перемешивание данных, «Shuffle». Стейдж это конкретное состояние RDD с известным числом партиций. Обработка каждой конкретной партиции - это Task, отдельное задание, которое делает что-то с весьма конкретным итератором по данным этой партиции RDD

источник

14:31пожаловаться #4

rpuropuu Greeg'O'Rii... in Data Engineers

странно, но мне понятно)) не ожидал от себя такого) спасибо большое за ваше время)

источник

14:32пожаловаться #5

ИК

Иван Калининский... in Data Engineers

Иногда драйверу нужно много информации о виде данных, к примеру, нужно прочитать миллионы файлов. Для начала драйвер может создать джобу для того, чтобы получить статус каждого файла, и экзекуторы сделают эту работу, передадут результат на драйвер, и дальше драйвер локально будет решать, читать этот файл отдельно, разделить его на несколько блоков, или наоборот, соединить несколько файлов в одну партицию RDD. Так что драйвер строит план, но не обходится без помощи, ведь это и есть фишка Spark - распределённость

источник

14:36пожаловаться #6

ИК

Иван Калининский... in Data Engineers

А вот тут не подскажу, с JDBC и HDFS работал, с кафкой не пришлось

источник

14:36пожаловаться #7

rpuropuu Greeg'O'Rii... in Data Engineers

звучит медленно.. это не для потока схема?

источник

14:38пожаловаться #8

ИК

Иван Калининский... in Data Engineers

нет, не для стрима, это для файлов

источник

14:38пожаловаться #9

rpuropuu Greeg'O'Rii... in Data Engineers

да, я уже понял. ТЗ на собесе: спарк, кафка, кассандра. а я на должность BI, и вот хочу разобраться что мне нужно лучше всего освоить, чтоб выдергивать данные из этого всего.

источник

14:39пожаловаться #10

rpuropuu Greeg'O'Rii... in Data Engineers

Там ещё S3 как-то вчера приплели, до этого об этом речи не было.

источник

14:40пожаловаться #11

rpuropuu Greeg'O'Rii... in Data Engineers

мне наверно интересно) раз я полез, чувствую, в глубже, чем нужно для BI

источник

14:41пожаловаться #12

Tasty Cake in Data Engineers

Всем привет. Такой вопрос: кто-то занимался настройкой Лайви (Livy) в докере? . Собрал свой контейнер с лайви (включил в сборку спарк), но при запуске простых приложений идет ошибка, что не найдены непонятно классы. Спарк-мастер стоит в другом контейнере. Понятно, что у меня не до конца настроена среда в контейнере, но не могу понять что именно -((((

источник

15:16пожаловаться #13

Mikhail Epikhin in Data Engineers

Я собирал, но не в docker.
А как docker image собирали? Там просто rsc jars надо в classpath добавлять

источник

15:18пожаловаться #14

Mikhail Epikhin in Data Engineers

Выглядит так что вы их забыли

источник

15:18пожаловаться #15

Tasty Cake in Data Engineers

нашел в гитхабе, немного доработал - заменил на более свежие версии дистрибутивы.