Телеграмм чат группы hadoopusers страница 2683

2020 August 31

Ж

found : String => org.apache.spark.sql.DataFrame
[ERROR] (which expands to) String => org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]
[ERROR] required: List[String] => ?
[ERROR] .map(sparkSession.read.parquet)

источник

11:08пожаловаться #1

ИК

Иван Калининский... in Data Engineers

Жмака

found : String => org.apache.spark.sql.DataFrame
[ERROR] (which expands to) String => org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]
[ERROR] required: List[String] => ?
[ERROR] .map(sparkSession.read.parquet)

list.grouped(n).toList.par.map(files => spark.read.parquet(files: _*)).reduce(_ union _)

источник

11:11пожаловаться #2

ИК

Иван Калининский... in Data Engineers

поправил ^^

источник

11:12пожаловаться #3

Ж

Жмака in Data Engineers

Скомпилировался👍

источник

11:15пожаловаться #4

ИК

Иван Калининский... in Data Engineers

Жмака

Скомпилировался👍

пушка! дай фидбек, как отработает, пжл )

источник

11:17пожаловаться #5

Ж

Жмака in Data Engineers

Уже закачиваю джар на EMR

источник

11:17пожаловаться #6

AS

Andrey Smirnov in Data Engineers

Иван Калининский

нет, на драйвере это будет координироваться, выполняться чтение должно на экзекуторах

странно, надо будет проверить

источник

11:39пожаловаться #7

AS

Andrey Smirnov in Data Engineers

тут недавно обсуждали вопрос оптимизации запросов к БД, я тогда сомневался в необходимости нейронок для этого, но наткнулся на публикации где это действительно тестируют
https://arxiv.org/pdf/1902.00132.pdf (в списке литературы есть пару работ про оптимизацию запросов)

источник

11:49пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

Иван Калининский

в общем, да, хоть и говорят, что union - простая трансформация, но если объединяются несколько сотен, а тем более тысяч элементов, то выполняется невероятно долго, эта проблема уже обсуждалась здесь или в moscow spark

Можно объединять параллельно

источник

11:51пожаловаться #9

K

KrivdaTheTriewe in Data Engineers

Несколько тысяч объединяем датафреймов

источник

11:52пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

Andrey Smirnov

тут недавно обсуждали вопрос оптимизации запросов к БД, я тогда сомневался в необходимости нейронок для этого, но наткнулся на публикации где это действительно тестируют
https://arxiv.org/pdf/1902.00132.pdf (в списке литературы есть пару работ про оптимизацию запросов)

это в ресерче уже несколько лет горячая тема, даже есть относительно работающие реализации (в секретных лабораториях)

источник

12:11пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

сейчас с массовым переходом на SaaS решения появились данные на которых это все можно учить и тестировать

источник

12:13пожаловаться #12

ПФ

Паша Финкельштейн... in Data Engineers

Иван Калининский

list.grouped(n).toList.par.map(files => spark.read.parquet(files: _*)).reduce(_ union _)

Сорри, я чисто по памяти писал

источник

12:31пожаловаться #13

ИК

Иван Калининский... in Data Engineers

Паша Финкельштейн

Сорри, я чисто по памяти писал

Никаких претензий )), это особенность реализации Spark, которую мне (и не только мне) пришлось обходить

источник

12:34пожаловаться #14

K

KrivdaTheTriewe in Data Engineers

Иван Калининский

list.grouped(n).toList.par.map(files => spark.read.parquet(files: _*)).reduce(_ union _)

Лучше построение плана также распралаллелить , если будет медленно

источник

12:35пожаловаться #15

ИК

Иван Калининский... in Data Engineers

Меня сейчас стало напрягать, что в union не указываются поля, если будут прочитаны колонки в разном порядке, то будут серьезные, иногда не сразу обнаруживаемые проблемы

источник

12:36пожаловаться #16

ИК

Иван Калининский... in Data Engineers

KrivdaTheTriewe

Лучше построение плана также распралаллелить , если будет медленно

я этого уже не умею, после того, как мне подсказали, что есть функция input_file_name(), задачу я решил
Буду рад вечером узнать, как можно параллелить план!

источник

12:37пожаловаться #17

K

KrivdaTheTriewe in Data Engineers

Иван Калининский

Меня сейчас стало напрягать, что в union не указываются поля, если будут прочитаны колонки в разном порядке, то будут серьезные, иногда не сразу обнаруживаемые проблемы

Можно привести схему после read

источник

12:43пожаловаться #18

ИК

Иван Калининский... in Data Engineers

KrivdaTheTriewe

Можно привести схему после read

@pavelzeger , обрати внимание, пжл!

источник

12:43пожаловаться #19

ПФ

Паша Финкельштейн... in Data Engineers

Иван Калининский

Меня сейчас стало напрягать, что в union не указываются поля, если будут прочитаны колонки в разном порядке, то будут серьезные, иногда не сразу обнаруживаемые проблемы

Приведи к типизированному датасету

источник

12:44пожаловаться #20