Телеграмм чат группы hadoopusers страница 1890

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 13

GP

Grigory Pomadchin in Data Engineers

Всем привет, сори за возможно холиварный вопрос по Spark - когда и почему стоит использовать RDD взамен всего остального, именно на практике

Мало когда оно тебе нужно.

Руками схему партицировария когда хочешь делать, сам заниматься физ планом; когда у тебя 100% данных всегда в память грузятся (т.е. нет колонок в твоём датасете - все бинарные блобы); и то это все спрятать можно часто за дсы/ дфы чтоб никто твои рдды не видел

источник

15:29пожаловаться #1

A

Alexander in Data Engineers

Коллеги, подскажите, пожалуйста. Есть партиционированная таблица в hive. В ней многие записи дублированы, в каждой партиции много файлов. Хочу привести таблицу в порядок: одна партиция - один файл, отсутствие дублей. Можно, конечно, просто select distinct * и выставить merge.mapredfiles=true, но таблица большая, кластер сдохнет такое переваривать. Возможно ли это сделать без писания приложения?

источник

15:48пожаловаться #2

A

Alex in Data Engineers

А почему сдохнет?

источник

15:55пожаловаться #3

A

Alex in Data Engineers

Старенький мапредьюс он как трактор, медленно но уверенно перепашет все с минимум ресурсов

источник

15:56пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Коллеги, подскажите, пожалуйста. Есть партиционированная таблица в hive. В ней многие записи дублированы, в каждой партиции много файлов. Хочу привести таблицу в порядок: одна партиция - один файл, отсутствие дублей. Можно, конечно, просто select distinct * и выставить merge.mapredfiles=true, но таблица большая, кластер сдохнет такое переваривать. Возможно ли это сделать без писания приложения?

для ORC есть alter .. concatenate но касательно дублей придется каждую партицию группировать по полной строке (или производной от строки)

источник

15:58пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

и да, если запустить координатор который жует по одной партиции то будет все довольно легко (но долго), и можно параллелизмом управлять чтобы разгонять временно

источник

15:59пожаловаться #6

A

Alexander in Data Engineers

Старенький мапредьюс он как трактор, медленно но уверенно перепашет все с минимум ресурсов

На стадии редьюса и дохнет старенький мапредьюс

источник

16:07пожаловаться #7

A

Alexander in Data Engineers

Anton Zadorozhniy

для ORC есть alter .. concatenate но касательно дублей придется каждую партицию группировать по полной строке (или производной от строки)

У меня avro

источник

16:07пожаловаться #8

A

Alex in Data Engineers

На стадии редьюса и дохнет старенький мапредьюс

почему он сдохнет
дистинкт уже частично будет после sort на предыдущем этапе
остается лишь в редьюсере решить КАК откинуть дубликаты

источник

16:08пожаловаться #9

A

Alexander in Data Engineers

Anton Zadorozhniy

и да, если запустить координатор который жует по одной партиции то будет все довольно легко (но долго), и можно параллелизмом управлять чтобы разгонять временно

Вот как запустить, чтобы он по одной партиции жевал, а не сразу всю таблицу?

источник

16:08пожаловаться #10

A

Alex in Data Engineers

писал ручками Mapper и Reducer когда это ещё не было в треднде 😉

поэтому и не понимаю почему он сдохнуть должен

источник

16:09пожаловаться #11

A

Alexander in Data Engineers

почему он сдохнет
дистинкт уже частично будет после sort на предыдущем этапе
остается лишь в редьюсере решить КАК откинуть дубликаты

Так дистинкт как раз и откидывает дубликаты

источник

16:09пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Вот как запустить, чтобы он по одной партиции жевал, а не сразу всю таблицу?

в смысле? у вас на вход путь и на выход путь, подавайте просто по одному через ваш планировщик (узи или что там у вас)

источник

16:10пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

дубликаты внутри партиций, или есть между партициями?

источник

16:10пожаловаться #14

A

Alexander in Data Engineers

писал ручками Mapper и Reducer когда это ещё не было в треднде 😉

поэтому и не понимаю почему он сдохнуть должен

Так на спарке я тоже это легко сделаю. Но это долгий процесс: закодить, отдать тестировщикам, релизнуть. Вопрос, можно ли это сделать просто в hive cli

источник

16:11пожаловаться #15

A

Alexander in Data Engineers

Anton Zadorozhniy

дубликаты внутри партиций, или есть между партициями?

Только внутри партиций

источник

16:12пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

я такие штуки больше всего люблю на пиге писать

источник

16:12пожаловаться #17

A

Alex in Data Engineers

ну вот смотри:
гоним mapper который в разные “баккеты” по хэш партишионеру записывает данные, причем внутри они сортируются
дальше на reducer идёт классический sort-merge, то есть на в редьюсер подается key и итератор на values (которые вычитываются по мере необходимости), тут можно емитить первый и переходить к следующему ключу, либо делать группировку и тд

все вопросы по размеру памяти на стороне mapper и и reducer обусловлены как часто диск дергать
ничего объемного там нету

источник

16:12пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

он страшненький, но умеет мерджить инпут сплиты (спарк до сих пор через костыли это делает), и простой

источник

16:12пожаловаться #19

A

Alexander in Data Engineers

Anton Zadorozhniy

он страшненький, но умеет мерджить инпут сплиты (спарк до сих пор через костыли это делает), и простой

Нет у нас пига :(

источник

16:14пожаловаться #20