Size: a a a

2020 August 31

K

KrivdaTheTriewe in Data Engineers
Я могу показать код примерный вечером
источник

GT

Gennady Timofeev in Data Engineers
Жмака
Да
И все нужны?
источник

Ж

Жмака in Data Engineers
Roman
в афине ctas создать таблицу с форматом паркет/орк и фиксированным локейшеном. Получится меньше файлов намного и только то, что вам нужно. И потом из этого локейшена вычитать спарком. Афина, скорее всего, намного быстрее прочитает эти файлы и создаст то, что вам нужно.
Это дорого читать через нее. Надо же вроде jdbc driver
источник

R

Roman in Data Engineers
Ещё нужно посмотреть не упираетесь ли вы в сеть emr. Там не то чтобы большой канал.
источник

Ж

Жмака in Data Engineers
Gennady Timofeev
И все нужны?
Последние 9 дней
источник

ПФ

Паша Финкельштейн... in Data Engineers
KrivdaTheTriewe
Он будет последовательным
Согласен, можно сделать на параллельных стримах если без зио
источник

Ж

Жмака in Data Engineers
KrivdaTheTriewe
Я могу показать код примерный вечером
Буду рад
источник

GT

Gennady Timofeev in Data Engineers
Жмака
Последние 9 дней
Создайте таблицу в глю поверх этих файлов
источник

K

KrivdaTheTriewe in Data Engineers
Паша Финкельштейн
Согласен, можно сделать на параллельных стримах если без зио
Можно на фьючах сделать
источник

K

KrivdaTheTriewe in Data Engineers
Не нужны стримы
источник

Ж

Жмака in Data Engineers
Dmitry Zuev
Сделай построение плана параллельное
Как?
источник

K

KrivdaTheTriewe in Data Engineers
Dmitry Zuev
Сделай построение плана параллельное
Spark.read будет последовательным
источник

R

Roman in Data Engineers
Жмака
Это дорого читать через нее. Надо же вроде jdbc driver
Не, через афину создаёте готовый датасет(вы же не все данные читаете, что - то фильтруете), сохранить его в s3. И из s3 вычиать спарком.
источник

Ж

Жмака in Data Engineers
Gennady Timofeev
Создайте таблицу в глю поверх этих файлов
А в чем плюс?
источник

GT

Gennady Timofeev in Data Engineers
Жмака
А в чем плюс?
Будете читать spark.table как хотели, фильтруя по нужным партициям
источник

ПФ

Паша Финкельштейн... in Data Engineers
KrivdaTheTriewe
Можно на фьючах сделать
Тоже вариант, да
источник

Ж

Жмака in Data Engineers
Roman
Не, через афину создаёте готовый датасет(вы же не все данные читаете, что - то фильтруете), сохранить его в s3. И из s3 вычиать спарком.
Это снова деньги за нее платить. Не согласятся
источник

GT

Gennady Timofeev in Data Engineers
В зеппелине в емр создайте просто таблицу, даже афина не нужна
источник

Ж

Жмака in Data Engineers
KrivdaTheTriewe
Spark.read будет последовательным
Запутался. Тогда как сделать, чтобы не последовательно?
источник

Ж

Жмака in Data Engineers
Gennady Timofeev
В зеппелине в емр создайте просто таблицу, даже афина не нужна
Это все в скала аппликации должно бежать
источник