Телеграмм чат группы hadoopusers страница 4387

пер партицию не?

15:14пожаловаться #1

ну и у pandas_udf единственная разница в том, что данные сереализуются не пиклом, а в эрроу

15:14пожаловаться #2

вроде, можно в моем докладе глянуть

15:14пожаловаться #3

не помню точно уже 🙂

15:14пожаловаться #4

зис; кста это уже лучше

15:14пожаловаться #5

Все что угодно бырее пикла

15:14пожаловаться #6

Но

15:14пожаловаться #7

Oleg Ilinsky in Data Engineers

а где?)

15:15пожаловаться #8

да косяк что у спарка своя инмемори

15:15пожаловаться #9

https://youtu.be/eHcJPWTh2oU

YouTube

DE or DIE #5. Андрей Титов – Использование Scala UDF в PySpark

Материалы всех наших митапов: https://deordie.com
Наш чат в Telegram: https://t.me/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/

Автор доклада: Андрей Титов, Senior Spark Engineer, NVIDIA

В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.

При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.

К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.

В своем докладе я расскажу, как:
– заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
– создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…);
– использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
–…

15:16пожаловаться #10

интернал роу вот это все ):

15:16пожаловаться #11

Oleg Ilinsky in Data Engineers

спасибо, схоронил)

15:16пожаловаться #12

ага, он там по сути чо делает - rdd.mapPartitions(x => toArrowBatches(x)) и дальше в сокит

15:17пожаловаться #13

из одной партиции могут появится 1+ эрроу батчей

Иван Калининский... in Data Engineers

15:17пожаловаться #14

ИК

Да, в самом начале чтения из паркета в RDD присутствует ColumnarBatch, но потом он разбирается на InternalRow

15:17пожаловаться #15

д это то что я помню

15:17пожаловаться #16

но шапка со схемой ток одна на партицию

15:17пожаловаться #17

вообще типо теоретически ароу паркет топово читать может

15:18пожаловаться #18

у ароу тупо апи есть - читает паркет как ммп и ту пандас 0 кост

Иван Калининский... in Data Engineers

15:19пожаловаться #19

ИК

Посмотрел, правда есть такое, есть метод toArrowBatchRdd (package scoped) в Dataset. Подумаю на каникулах, как можно это использовать)) Спасибо