Size: a a a

2020 August 31

Ж

Жмака in Data Engineers
found   : String => org.apache.spark.sql.DataFrame
[ERROR]     (which expands to)  String => org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]
[ERROR]  required: List[String] => ?
[ERROR]       .map(sparkSession.read.parquet)
источник

ИК

Иван Калининский... in Data Engineers
Жмака
found   : String => org.apache.spark.sql.DataFrame
[ERROR]     (which expands to)  String => org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]
[ERROR]  required: List[String] => ?
[ERROR]       .map(sparkSession.read.parquet)
list.grouped(n).toList.par.map(files => spark.read.parquet(files: _*)).reduce(_ union _)
источник

ИК

Иван Калининский... in Data Engineers
поправил ^^
источник

Ж

Жмака in Data Engineers
Скомпилировался👍
источник

ИК

Иван Калининский... in Data Engineers
Жмака
Скомпилировался👍
пушка! дай фидбек, как отработает, пжл )
источник

Ж

Жмака in Data Engineers
Уже закачиваю джар на EMR
источник

AS

Andrey Smirnov in Data Engineers
Иван Калининский
нет, на драйвере это будет координироваться, выполняться чтение должно на экзекуторах
странно, надо будет проверить
источник

AS

Andrey Smirnov in Data Engineers
тут недавно обсуждали вопрос оптимизации запросов к БД, я тогда сомневался в необходимости нейронок для этого, но наткнулся на публикации где это действительно тестируют
https://arxiv.org/pdf/1902.00132.pdf (в списке литературы есть пару работ про оптимизацию запросов)
источник

K

KrivdaTheTriewe in Data Engineers
Иван Калининский
в общем, да, хоть и говорят, что union - простая трансформация, но если объединяются несколько сотен, а тем более тысяч элементов, то выполняется невероятно долго, эта проблема уже обсуждалась здесь или в moscow spark
Можно объединять параллельно
источник

K

KrivdaTheTriewe in Data Engineers
Несколько тысяч объединяем датафреймов
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
тут недавно обсуждали вопрос оптимизации запросов к БД, я тогда сомневался в необходимости нейронок для этого, но наткнулся на публикации где это действительно тестируют
https://arxiv.org/pdf/1902.00132.pdf (в списке литературы есть пару работ про оптимизацию запросов)
это в ресерче уже несколько лет горячая тема, даже есть относительно работающие реализации (в секретных лабораториях)
источник

AZ

Anton Zadorozhniy in Data Engineers
сейчас с массовым переходом на SaaS решения появились данные на которых это все можно учить и тестировать
источник

ПФ

Паша Финкельштейн... in Data Engineers
Иван Калининский
list.grouped(n).toList.par.map(files => spark.read.parquet(files: _*)).reduce(_ union _)
Сорри, я чисто по памяти писал
источник

ИК

Иван Калининский... in Data Engineers
Паша Финкельштейн
Сорри, я чисто по памяти писал
Никаких претензий )), это особенность реализации Spark, которую мне (и не только мне) пришлось обходить
источник

K

KrivdaTheTriewe in Data Engineers
Иван Калининский
list.grouped(n).toList.par.map(files => spark.read.parquet(files: _*)).reduce(_ union _)
Лучше построение плана также распралаллелить , если будет медленно
источник

ИК

Иван Калининский... in Data Engineers
Меня сейчас стало напрягать, что в union не указываются поля, если будут прочитаны колонки в разном порядке, то будут серьезные, иногда не сразу обнаруживаемые проблемы
источник

ИК

Иван Калининский... in Data Engineers
KrivdaTheTriewe
Лучше построение плана также распралаллелить , если будет медленно
я этого уже не умею, после того, как мне подсказали, что есть функция input_file_name(), задачу я решил
Буду рад вечером узнать, как можно параллелить план!
источник

K

KrivdaTheTriewe in Data Engineers
Иван Калининский
Меня сейчас стало напрягать, что в union не указываются поля, если будут прочитаны колонки в разном порядке, то будут серьезные, иногда не сразу обнаруживаемые проблемы
Можно привести схему после read
источник

ИК

Иван Калининский... in Data Engineers
KrivdaTheTriewe
Можно привести схему после read
@pavelzeger , обрати внимание, пжл!
источник

ПФ

Паша Финкельштейн... in Data Engineers
Иван Калининский
Меня сейчас стало напрягать, что в union не указываются поля, если будут прочитаны колонки в разном порядке, то будут серьезные, иногда не сразу обнаруживаемые проблемы
Приведи к типизированному датасету
источник