Телеграмм чат группы hadoopusers страница 2682

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1923 membersпожаловаться на группу

2020 August 31

ИК

Иван Калининский... in Data Engineers

Жмака

Юнион вроде тяжелая операция

fileList.grouped(128).par.map(spark.read.parquet).reduce(_ union _) - может с этого стоит начать попытки?

источник

10:42пожаловаться #1

Ж

Жмака in Data Engineers

Иван Калининский

fileList.grouped(128).par.map(spark.read.parquet).reduce(_ union _) - может с этого стоит начать попытки?

А что за par? Не находит

источник

10:43пожаловаться #2

ИК

Иван Калининский... in Data Engineers

это потому что я планировал, что .grouped будет параллельная коллекция, а это, походу, итератор, надо его .toList

источник

10:44пожаловаться #3

ИК

Иван Калининский... in Data Engineers

Жмака

А что за par? Не находит

минутку, надо попробовать не в телеграмме это написать))

источник

10:45пожаловаться #4

Ж

Жмака in Data Engineers

Я пробую. Выдал с toList датафрейм.

источник

10:46пожаловаться #5

ИК

Иван Калининский... in Data Engineers

Жмака

Я пробую. Выдал с toList датафрейм.

ну вот, может быть, будет чуть быстрее))

источник

10:46пожаловаться #6

Ж

Жмака in Data Engineers

Попробую тогда. Но чуть чуть не обнадеживает😞

источник

10:47пожаловаться #7

Ж

Жмака in Data Engineers

Спасибо

источник

10:47пожаловаться #8

ИК

Иван Калининский... in Data Engineers

Жмака

Спасибо

пожалуйста!

источник

10:49пожаловаться #9

ИК

Иван Калининский... in Data Engineers

Пруф, что проблема большого числа union в dataframe API обсуждали в Moscow spark.

источник

10:54пожаловаться #10

ИК

Иван Калининский... in Data Engineers

И даже если делать union на отдельных строках, если их больше тысячи, ждать бесполезно, проще .collect и преобразовать на драйвере как надо. Походу, там квадратичная сложность и на каждом шаге проверяются схемы всех предыдущих датафреймов. Впрочем, код я так и не посмотрел, так что это всего лишь предположение

источник

10:57пожаловаться #11

AS

Andrey Smirnov in Data Engineers

Жмака

В количество данных и последовательное чтение файлов

а пробовал читать с указанием схемы, в орках это точно поможет, как в паркете не знаю

источник

11:00пожаловаться #12

Ж

Жмака in Data Engineers

Иван Калининский

И даже если делать union на отдельных строках, если их больше тысячи, ждать бесполезно, проще .collect и преобразовать на драйвере как надо. Походу, там квадратичная сложность и на каждом шаге проверяются схемы всех предыдущих датафреймов. Впрочем, код я так и не посмотрел, так что это всего лишь предположение

То есть юнион не решение и трогать его в моем случае нет смысла если у меня 25000 файлов?

источник

11:01пожаловаться #13

Ж

Жмака in Data Engineers

а пробовал читать с указанием схемы, в орках это точно поможет, как в паркете не знаю

Не пробовал но читать будет все равно последовательно тысячи файлов

источник

11:03пожаловаться #14

ИК

Иван Калининский... in Data Engineers

так я предложил сделать параллельный список списков, при этом количество юнионов снизится в 128 раз ))

источник

11:03пожаловаться #15

AS

Andrey Smirnov in Data Engineers

Жмака

Не пробовал но читать будет все равно последовательно тысячи файлов

он же не весь файл вычитывает, потом это разойдется по экзекютерам

источник

11:04пожаловаться #16

AS

Andrey Smirnov in Data Engineers

Иван Калининский

так я предложил сделать параллельный список списков, при этом количество юнионов снизится в 128 раз ))

но это все на драйвере будет выполняться?

источник

11:04пожаловаться #17

ИК

Иван Калининский... in Data Engineers

но это все на драйвере будет выполняться?

нет, на драйвере это будет координироваться, выполняться чтение должно на экзекуторах

источник

11:05пожаловаться #18

ИК

Иван Калининский... in Data Engineers

ну и небольшой дисклеймер, я на S3 ничего не делал, только HDFS и локальная ФС

источник

11:06пожаловаться #19

Ж

Жмака in Data Engineers

Иван Калининский

так я предложил сделать параллельный список списков, при этом количество юнионов снизится в 128 раз ))

Не компилируется.

источник

11:08пожаловаться #20