Телеграмм чат группы hadoopusers страница 2679

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1923 membersпожаловаться на группу

2020 August 31

R

Roman in Data Engineers

Toemik Mnemonic

Всем привет. Есть задача отправлять в СУБД данные из pd.DataFrame(), но не бакетом, а построчно (для логирования и для того что бы при ошибке импортировались корректные строки). Как я понимаю циклом пройтись по датафрейму не самая лучшая идея в плане производительности. Куда посоветуете смотреть?

Записать в БД датафрейм. Он будет записан построчно в БД.

источник

09:46пожаловаться #1

TM

Toemik Mnemonic in Data Engineers

Записать в БД датафрейм. Он будет записан построчно в БД.

Если будет ошибка импорта , инсерт не завершится , на уровне БД не будет ни одной записи. и возможности вывести в лог на какой строке датафрейма импорт упал тоже , вроде бы нет.

источник

09:55пожаловаться #2

Ж

Жмака in Data Engineers

Привет. Пытаюсь на EMR читать паркеты с S3 (лист с путями к каждому файлу в spark read parquet). Файлов 25000, поэтому очень медленно. Помимо добавления экзекьбторов можно еще как то оптимизировать? Пытался через spark sql с условием filter(есть партиции по дате), вроде быстрее. С просто запросом sql (select from db.table (запрос в athena) ) падает с ошибкой connection refused. Какой вариант будет быстрее?

источник

10:12пожаловаться #3

DZ

Dmitry Zuev in Data Engineers

@krivdathetriewe

источник

10:13пожаловаться #4

ПФ

Паша Финкельштейн... in Data Engineers

Жмака

Привет. Пытаюсь на EMR читать паркеты с S3 (лист с путями к каждому файлу в spark read parquet). Файлов 25000, поэтому очень медленно. Помимо добавления экзекьбторов можно еще как то оптимизировать? Пытался через spark sql с условием filter(есть партиции по дате), вроде быстрее. С просто запросом sql (select from db.table (запрос в athena) ) падает с ошибкой connection refused. Какой вариант будет быстрее?

Лист в датафрейм, а там map?

источник

10:21пожаловаться #5

ПФ

Паша Финкельштейн... in Data Engineers

Но в целом работа с большим количеством файлов всегда будет медленной

источник

10:22пожаловаться #6

Ж

Жмака in Data Engineers

Лист с путями паркетов загружается как spark.read.parquet(list: _*)

источник

10:23пожаловаться #7

Ж

Жмака in Data Engineers

Паша Финкельштейн

Но в целом работа с большим количеством файлов всегда будет медленной

Это просто очень медленно. Больше 3 часов

источник

10:23пожаловаться #8

GT

Gennady Timofeev in Data Engineers

Жмака

Привет. Пытаюсь на EMR читать паркеты с S3 (лист с путями к каждому файлу в spark read parquet). Файлов 25000, поэтому очень медленно. Помимо добавления экзекьбторов можно еще как то оптимизировать? Пытался через spark sql с условием filter(есть партиции по дате), вроде быстрее. С просто запросом sql (select from db.table (запрос в athena) ) падает с ошибкой connection refused. Какой вариант будет быстрее?

Это у вас партиции?

источник

10:25пожаловаться #9

DZ

Dmitry Zuev in Data Engineers

Жмака

Лист с путями паркетов загружается как spark.read.parquet(list: _*)

Сделай построение плана параллельное

источник

10:25пожаловаться #10

ПФ

Паша Финкельштейн... in Data Engineers

Жмака

Лист с путями паркетов загружается как spark.read.parquet(list: _*)

Как ты понимаешь, есть альтернативный вариант.
listOfFiles.map(spark.read.parquet(_)).reduce(_.union(_))

источник

10:25пожаловаться #11

Ж

Жмака in Data Engineers

Gennady Timofeev

Это у вас партиции?

Да

источник

10:25пожаловаться #12

K

KrivdaTheTriewe in Data Engineers

Жмака

Привет. Пытаюсь на EMR читать паркеты с S3 (лист с путями к каждому файлу в spark read parquet). Файлов 25000, поэтому очень медленно. Помимо добавления экзекьбторов можно еще как то оптимизировать? Пытался через spark sql с условием filter(есть партиции по дате), вроде быстрее. С просто запросом sql (select from db.table (запрос в athena) ) падает с ошибкой connection refused. Какой вариант будет быстрее?

Мы на зио сделали обертку и читаем в паралель, потом делаем union

источник

10:25пожаловаться #13

ПФ

Паша Финкельштейн... in Data Engineers

Или там на параллельных стримах

источник

10:25пожаловаться #14

R

Roman in Data Engineers

Жмака

Привет. Пытаюсь на EMR читать паркеты с S3 (лист с путями к каждому файлу в spark read parquet). Файлов 25000, поэтому очень медленно. Помимо добавления экзекьбторов можно еще как то оптимизировать? Пытался через spark sql с условием filter(есть партиции по дате), вроде быстрее. С просто запросом sql (select from db.table (запрос в athena) ) падает с ошибкой connection refused. Какой вариант будет быстрее?

в афине ctas создать таблицу с форматом паркет/орк и фиксированным локейшеном. Получится меньше файлов намного и только то, что вам нужно. И потом из этого локейшена вычитать спарком. Афина, скорее всего, намного быстрее прочитает эти файлы и создаст то, что вам нужно.

источник

10:25пожаловаться #15

Ж

Жмака in Data Engineers

Паша Финкельштейн

Как ты понимаешь, есть альтернативный вариант.
listOfFiles.map(spark.read.parquet(_)).reduce(_.union(_))

Он быстрее? В чем улучшение?

источник

10:26пожаловаться #16

ИК

Иван Калининский... in Data Engineers

Паша Финкельштейн

Как ты понимаешь, есть альтернативный вариант.
listOfFiles.map(spark.read.parquet(_)).reduce(_.union(_))

в HDFS и Spark 2.2.0 это выполнится за несколько чвсов или суток

источник

10:26пожаловаться #17

ПФ

Паша Финкельштейн... in Data Engineers

Жмака

Он быстрее? В чем улучшение?

Надо смотреть быстрее ли

источник

10:26пожаловаться #18

K

KrivdaTheTriewe in Data Engineers

Паша Финкельштейн

Как ты понимаешь, есть альтернативный вариант.
listOfFiles.map(spark.read.parquet(_)).reduce(_.union(_))

Он будет последовательным

источник

10:26пожаловаться #19

K

KrivdaTheTriewe in Data Engineers

Короче

источник

10:26пожаловаться #20