Size: a a a

2021 October 21

GP

Grigory Pomadchin in Data Engineers
пер партицию не?
источник

t

tenKe in Data Engineers
ну и у pandas_udf единственная разница в том, что данные сереализуются не пиклом, а в эрроу
источник

t

tenKe in Data Engineers
вроде, можно в моем докладе глянуть
источник

t

tenKe in Data Engineers
не помню точно уже 🙂
источник

GP

Grigory Pomadchin in Data Engineers
зис; кста это уже лучше
источник

GP

Grigory Pomadchin in Data Engineers
Все что угодно бырее пикла
источник

GP

Grigory Pomadchin in Data Engineers
Но
источник

OI

Oleg Ilinsky in Data Engineers
а где?)
источник

GP

Grigory Pomadchin in Data Engineers
да косяк что у спарка своя инмемори
источник

t

tenKe in Data Engineers
YouTube
DE or DIE #5. Андрей Титов – Использование Scala UDF в PySpark
Материалы всех наших митапов: https://deordie.com
Наш чат в Telegram: https://t.me/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/

Автор доклада: Андрей Титов, Senior Spark Engineer, NVIDIA

В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.

При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.

К сожалению, в официальной документации приводится самый базовый вариант их применения, который  имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.

В своем докладе я расскажу, как:
– заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
– создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…);
– использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
–…
источник

GP

Grigory Pomadchin in Data Engineers
интернал роу вот это все ):
источник

OI

Oleg Ilinsky in Data Engineers
спасибо, схоронил)
источник

t

tenKe in Data Engineers
ага, он там по сути чо делает - rdd.mapPartitions(x => toArrowBatches(x)) и дальше в сокит
источник

t

tenKe in Data Engineers
из одной партиции могут появится 1+ эрроу батчей
источник

ИК

Иван Калининский... in Data Engineers
Да, в самом начале чтения из паркета в RDD присутствует ColumnarBatch, но потом он разбирается на InternalRow
источник

GP

Grigory Pomadchin in Data Engineers
д это то что я помню
источник

t

tenKe in Data Engineers
но шапка со схемой ток одна на партицию
источник

GP

Grigory Pomadchin in Data Engineers
вообще типо теоретически ароу паркет топово читать может
источник

GP

Grigory Pomadchin in Data Engineers
у ароу тупо апи есть - читает паркет как ммп и ту пандас 0 кост
источник

ИК

Иван Калининский... in Data Engineers
Посмотрел, правда есть такое, есть метод toArrowBatchRdd (package scoped) в Dataset. Подумаю на каникулах, как можно это использовать)) Спасибо
источник