Телеграмм чат группы hadoopusers страница 2680

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1923 membersпожаловаться на группу

2020 August 31

K

KrivdaTheTriewe in Data Engineers

Я могу показать код примерный вечером

источник

10:26пожаловаться #1

GT

Gennady Timofeev in Data Engineers

Жмака

Да

И все нужны?

источник

10:26пожаловаться #2

Ж

Жмака in Data Engineers

в афине ctas создать таблицу с форматом паркет/орк и фиксированным локейшеном. Получится меньше файлов намного и только то, что вам нужно. И потом из этого локейшена вычитать спарком. Афина, скорее всего, намного быстрее прочитает эти файлы и создаст то, что вам нужно.

Это дорого читать через нее. Надо же вроде jdbc driver

источник

10:26пожаловаться #3

R

Roman in Data Engineers

Ещё нужно посмотреть не упираетесь ли вы в сеть emr. Там не то чтобы большой канал.

источник

10:26пожаловаться #4

Ж

Жмака in Data Engineers

Gennady Timofeev

И все нужны?

Последние 9 дней

источник

10:26пожаловаться #5

ПФ

Паша Финкельштейн... in Data Engineers

KrivdaTheTriewe

Он будет последовательным

Согласен, можно сделать на параллельных стримах если без зио

источник

10:26пожаловаться #6

Ж

Жмака in Data Engineers

KrivdaTheTriewe

Я могу показать код примерный вечером

Буду рад

источник

10:27пожаловаться #7

GT

Gennady Timofeev in Data Engineers

Жмака

Последние 9 дней

Создайте таблицу в глю поверх этих файлов

источник

10:27пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

Паша Финкельштейн

Согласен, можно сделать на параллельных стримах если без зио

Можно на фьючах сделать

источник

10:27пожаловаться #9

K

KrivdaTheTriewe in Data Engineers

Не нужны стримы

источник

10:27пожаловаться #10

Ж

Жмака in Data Engineers

Сделай построение плана параллельное

Как?

источник

10:27пожаловаться #11

K

KrivdaTheTriewe in Data Engineers

Сделай построение плана параллельное

Spark.read будет последовательным

источник

10:27пожаловаться #12

R

Roman in Data Engineers

Жмака

Это дорого читать через нее. Надо же вроде jdbc driver

Не, через афину создаёте готовый датасет(вы же не все данные читаете, что - то фильтруете), сохранить его в s3. И из s3 вычиать спарком.

источник

10:27пожаловаться #13

Ж

Жмака in Data Engineers

Gennady Timofeev

Создайте таблицу в глю поверх этих файлов

А в чем плюс?

источник

10:28пожаловаться #14

GT

Gennady Timofeev in Data Engineers

Жмака

А в чем плюс?

Будете читать spark.table как хотели, фильтруя по нужным партициям

источник

10:28пожаловаться #15

ПФ

Паша Финкельштейн... in Data Engineers

KrivdaTheTriewe

Можно на фьючах сделать

Тоже вариант, да

источник

10:29пожаловаться #16

Ж

Жмака in Data Engineers

Не, через афину создаёте готовый датасет(вы же не все данные читаете, что - то фильтруете), сохранить его в s3. И из s3 вычиать спарком.

Это снова деньги за нее платить. Не согласятся

источник

10:29пожаловаться #17

GT

Gennady Timofeev in Data Engineers

В зеппелине в емр создайте просто таблицу, даже афина не нужна

источник

10:29пожаловаться #18

Ж

Жмака in Data Engineers

KrivdaTheTriewe

Spark.read будет последовательным

Запутался. Тогда как сделать, чтобы не последовательно?

источник

10:30пожаловаться #19

Ж

Жмака in Data Engineers

Gennady Timofeev

В зеппелине в емр создайте просто таблицу, даже афина не нужна

Это все в скала аппликации должно бежать

источник

10:31пожаловаться #20