Телеграмм чат группы hadoopusers страница 4386

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 October 21

ИК

Иван Калининский... in Data Engineers

так ведь за это и борются)

источник

15:05пожаловаться #1

Oleg Ilinsky in Data Engineers

т.е. классической проблемы python_udf, когда мы берём строку, серриализуем в питон, обрабатываем, отдаём, серриализуем обратно и всё это последовательно, можно сказать, нет)

источник

15:05пожаловаться #2

Anton Zadorozhniy in Data Engineers

там есть еще довод от первичности колоночного хранения - в большинстве колоночных систем вы получаете данные на клиента в строковом виде, даже если никаких преобразований не было

нужен колоночно-нативный интерфейс для клиентов

источник

15:06пожаловаться #3

ЕГ

Евгений Глотов... in Data Engineers

Вроде как спарк учится с этим работать

источник

15:09пожаловаться #4

ИК

Иван Калининский... in Data Engineers

Так получается, в пайплайне можно сканить и транформить сколько угодно паркетов с ограниченным выделением памяти? И почти zero copy на сер-десер?

источник

15:11пожаловаться #5

Grigory Pomadchin in Data Engineers

they say да

источник

15:11пожаловаться #6

Grigory Pomadchin in Data Engineers

И весь профит уже засчет того что все твои паркеты мемори мапед файлы

источник

15:12пожаловаться #7

Grigory Pomadchin in Data Engineers

Это все ещё копи просто ты сразу не копишь все и не двигаешь прочтённые байты никак

источник

15:12пожаловаться #8

ИК

Иван Калининский... in Data Engineers

круто, чо))

источник

15:12пожаловаться #9

Grigory Pomadchin in Data Engineers

Ас ис лоадишь

источник

15:12пожаловаться #10

Grigory Pomadchin in Data Engineers

Но там ограничения есть

источник

15:12пожаловаться #11

Grigory Pomadchin in Data Engineers

)))

источник

15:12пожаловаться #12

Grigory Pomadchin in Data Engineers

типо нанов незя в паркете

источник

15:12пожаловаться #13

Grigory Pomadchin in Data Engineers

Что-то ещё

источник

15:12пожаловаться #14

Grigory Pomadchin in Data Engineers

но даж с нанами там какой-то компат

источник

15:12пожаловаться #15

Grigory Pomadchin in Data Engineers

чето я хотел разобраться а потом время улетело и другим пришлось заниматься

источник

15:13пожаловаться #16

Grigory Pomadchin in Data Engineers

Там у них ещё плазма продукт есть интересный

источник

15:13пожаловаться #17

tenKe in Data Engineers

Использовал в свое время - если в кратце, то эрроу батчики не нужно десереализовывать перед работой с ними - то есть принял по сети и у тебя готовые данные. Другое дело, что для максимальной эффективности все должны уметь его нативно использовать

источник

15:13пожаловаться #18

tenKe in Data Engineers

там не построчно передается емнип

источник

15:13пожаловаться #19

tenKe in Data Engineers

даже на обычных python udf

источник

15:14пожаловаться #20