Size: a a a

2019 December 13

A

Alex in Data Engineers
пиг тоже ведь в тот же map-reduce превращается
у него проще когда оперируешь потоками данных, но те же джойны иногда проще в hive sql делать было

по мне pig vs hive не имеет смысла, на некоторых задачах он реально рулил, простой скрипт вместо простынки sql
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander
Нет у нас пига :(
это джарник, ему особенно ничего не нужно
источник

A

Alexander in Data Engineers
Anton Zadorozhniy
это джарник, ему особенно ничего не нужно
Там всё джарники :) кто мне даст их кинуть на прод кластер
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
я такие штуки больше всего люблю на пиге писать
Воувоу
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander
Там всё джарники :) кто мне даст их кинуть на прод кластер
там не надо ничего на кластер)) ну ладно, я вас не убеждаю
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
пиг тоже ведь в тот же map-reduce превращается
у него проще когда оперируешь потоками данных, но те же джойны иногда проще в hive sql делать было

по мне pig vs hive не имеет смысла, на некоторых задачах он реально рулил, простой скрипт вместо простынки sql
я именно про укрупняторы / дедубликаторы, там джоинить не надо
источник

K

KrivdaTheTriewe in Data Engineers
А мне порадовал insert from select хайвоваскиц из партиции в партицию , очень резво работает на орке
источник

A

Alex in Data Engineers
кстати спарководы, как вы относитесь к инициативе ?
https://issues.apache.org/jira/browse/SPARK-25299
источник

GP

Grigory Pomadchin in Data Engineers
Alex
кстати спарководы, как вы относитесь к инициативе ?
https://issues.apache.org/jira/browse/SPARK-25299
Экстернал шафл сервисы разве не это же?
источник

A

Alexander in Data Engineers
KrivdaTheTriewe
А мне порадовал insert from select хайвоваскиц из партиции в партицию , очень резво работает на орке
Ну мне и надо это сделать по большому счёту. Только с авро. Можете поподробнее?
источник

K

KrivdaTheTriewe in Data Engineers
источник

K

KrivdaTheTriewe in Data Engineers
Alexander
Ну мне и надо это сделать по большому счёту. Только с авро. Можете поподробнее?
А почему вы в авро храните ?
источник

A

Alex in Data Engineers
Grigory Pomadchin
Экстернал шафл сервисы разве не это же?
ну почти, но не они
экстернал обычно на той же ноде и хранят на том же локал диске

а тут обсуждение чтобы шафл вывод в хдфс/с3 запихивать
источник

A

Alexander in Data Engineers
KrivdaTheTriewe
А почему вы в авро храните ?
Бизнес требования.
источник

UD

Uncel Duk in Data Engineers
Alex
кстати спарководы, как вы относитесь к инициативе ?
https://issues.apache.org/jira/browse/SPARK-25299
надеюсь смогут в  многоуровневый шафл
источник

UD

Uncel Duk in Data Engineers
типа оперативка->nvdimm->nvme->hdd
источник

GP

Grigory Pomadchin in Data Engineers
Alex
ну почти, но не они
экстернал обычно на той же ноде и хранят на том же локал диске

а тут обсуждение чтобы шафл вывод в хдфс/с3 запихивать
Сдаётся мне пошло это обсуждения после спарка на к8с
источник

GP

Grigory Pomadchin in Data Engineers
Там жкстернал сервисы могли быть где угодно
источник

A

Alex in Data Engineers
коско и тд имеют свои ограничения на размер ключей блоков и тд, причем насколько понял неплохо так патчат под это сам спарк
источник

GP

Grigory Pomadchin in Data Engineers
Uncel Duk
типа оперативка->nvdimm->nvme->hdd
+
источник