Size: a a a

2021 October 21

ИК

Иван Калининский... in Data Engineers
так ведь за это и борются)
источник

OI

Oleg Ilinsky in Data Engineers
т.е. классической проблемы python_udf, когда мы берём строку, серриализуем в питон, обрабатываем, отдаём, серриализуем обратно и всё это последовательно, можно сказать, нет)
источник

AZ

Anton Zadorozhniy in Data Engineers
там есть еще довод от первичности колоночного хранения - в большинстве колоночных систем вы получаете данные на клиента в строковом виде, даже если никаких преобразований не было

нужен колоночно-нативный интерфейс для клиентов
источник

ЕГ

Евгений Глотов... in Data Engineers
Вроде как спарк учится с этим работать
источник

ИК

Иван Калининский... in Data Engineers
Так получается, в пайплайне можно сканить и транформить сколько угодно паркетов с ограниченным выделением памяти? И почти zero copy на сер-десер?
источник

GP

Grigory Pomadchin in Data Engineers
they say да
источник

GP

Grigory Pomadchin in Data Engineers
И весь профит уже засчет того что все твои паркеты мемори мапед файлы
источник

GP

Grigory Pomadchin in Data Engineers
Это все ещё копи просто ты сразу не копишь все и не двигаешь прочтённые байты никак
источник

ИК

Иван Калининский... in Data Engineers
круто, чо))
источник

GP

Grigory Pomadchin in Data Engineers
Ас ис лоадишь
источник

GP

Grigory Pomadchin in Data Engineers
Но там ограничения есть
источник

GP

Grigory Pomadchin in Data Engineers
)))
источник

GP

Grigory Pomadchin in Data Engineers
типо нанов незя в паркете
источник

GP

Grigory Pomadchin in Data Engineers
Что-то ещё
источник

GP

Grigory Pomadchin in Data Engineers
но даж с нанами там какой-то компат
источник

GP

Grigory Pomadchin in Data Engineers
чето я хотел разобраться а потом время улетело и другим пришлось заниматься
источник

GP

Grigory Pomadchin in Data Engineers
Там у них ещё плазма продукт есть интересный
источник

t

tenKe in Data Engineers
Использовал в свое время - если в кратце, то эрроу батчики не нужно десереализовывать перед работой с ними - то есть принял по сети и у тебя готовые данные. Другое дело, что для максимальной эффективности все должны уметь его нативно использовать
источник

t

tenKe in Data Engineers
там не построчно передается емнип
источник

t

tenKe in Data Engineers
даже на обычных python udf
источник