Size: a a a

2021 January 29

A

Alex in Data Engineers
K S
И ещё наверное меньше ресурсов уходит на SerDe, не знаю сколько это в процентах  от общей нагрузки, 2% или 20%, если значительно, то пропускная способность будет выше.
https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

Из старого, там сейчас больше таких вещей в кодогенерации и тд
источник

A

Alex in Data Engineers
Grigory Pomadchin
Интересный конечно момент это рапидс и жпу с эрроу
Вот с этим согласен
источник

KS

K S in Data Engineers
Alex
Если обратить внимание на пару вещей и молчаливо проигнорировать пачку других, то можно всегда показать свой продукт лучше чем конкурента
Понятно, спасибо за разъяснения. У меня тоже сразу возникло несколько вопросов, например поддержка Хадупа, хайва и т.д.
источник

A

Alex in Data Engineers
Это уже другой вопрос :) но думаю они не на ярн а на кубик целят с самого начала

Меня больше смутило java udf
Дёргать сишный код по jni медленно, но ещё более медленней это дёргать java код из нейтива
источник

A

Alex in Data Engineers
Хайв бинарные драйвера есть, так что ок

Для hdfs тоже есть апи, libhdfs и в виде когда внутри jvm, и с чисто нативной реализацией hdfs протокола
источник

KS

K S in Data Engineers
Alex
Хайв бинарные драйвера есть, так что ок

Для hdfs тоже есть апи, libhdfs и в виде когда внутри jvm, и с чисто нативной реализацией hdfs протокола
Вроде бы в арроу уже есть поддержка libhdfs
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Это уже другой вопрос :) но думаю они не на ярн а на кубик целят с самого начала

Меня больше смутило java udf
Дёргать сишный код по jni медленно, но ещё более медленней это дёргать java код из нейтива
дергать не особо медленно) медленно его часто дергать а еще более медленно чето копировать
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Хайв бинарные драйвера есть, так что ок

Для hdfs тоже есть апи, libhdfs и в виде когда внутри jvm, и с чисто нативной реализацией hdfs протокола
а мне казалось что даж нативная хдфс либа заставляет си процесс стартануть жвм
источник

A

Alex in Data Engineers
Та которая libhdfs стартует внутри jvm

Та которая libhdfspp нативная реализация протокола
источник

A

Alex in Data Engineers
K S
Вроде бы в арроу уже есть поддержка libhdfs
Да, в эрооу ещё и выбирать можно кого использовать
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Та которая libhdfs стартует внутри jvm

Та которая libhdfspp нативная реализация протокола
а она еще поддерживается? вроде ее бросили лет 6 назад
источник

A

Alex in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
даже так, спс
источник

A

Alex in Data Engineers
В основной ветке, фиксы влетают, возможно не все фичи мержат, но сказать что не поддерживается тоже нельзя
источник

A

Alex in Data Engineers
Grigory Pomadchin
а мне казалось что даж нативная хдфс либа заставляет си процесс стартануть жвм
Самая жесть была в свое время когда мне надо было из c# постучаться

C# код запускал обертку на плюсах
Cpp обёртка загружала libhdfs  сишную
Libhdfs стартовала внутри jvm и загружала java код
Java код уже подключался

И самая боль что по умолчанию readline из шарпов делала getchar и проверяла на перенос строки

Причём этот 1 сивмвол сразу запрашивался до самой java части (в процессе создавая местами new byte[1])
источник

A

Alex in Data Engineers
Работало это не быстро
источник

ИК

Иван Калининский... in Data Engineers
Как раз недавно смотрел, интересовался. Ballista основана на Data Fusion, это проект Энди Гроува, движок обработки запросов, теперь часть Apache Arrow, и это, конечно хорошо. Что не очень хорошо, так то что тулза в разработке. The main focus now is getting the platform to a level of maturity where users can run real-world ETL workloads (с). Энди Гроув пытается больше задействовать сообщество для развития, но к промышленному применению тулза не готова. Не вижу поддержки джоинов, агрегатных фукнций очень мало, файловых форматов только два (csv и parquet). На будущее (несколько лет) может быть хороший вариант, сейчас можно присоединяться к сообществу, развивать проект, ресерчить
Конечно, с самого начала ориентирована на kubernetes, а не на yarn
От сериализации, по-моему, полностью не избавиться, но arrow всегда заявляют минимальный оверхед
источник

KS

K S in Data Engineers
Иван Калининский
Как раз недавно смотрел, интересовался. Ballista основана на Data Fusion, это проект Энди Гроува, движок обработки запросов, теперь часть Apache Arrow, и это, конечно хорошо. Что не очень хорошо, так то что тулза в разработке. The main focus now is getting the platform to a level of maturity where users can run real-world ETL workloads (с). Энди Гроув пытается больше задействовать сообщество для развития, но к промышленному применению тулза не готова. Не вижу поддержки джоинов, агрегатных фукнций очень мало, файловых форматов только два (csv и parquet). На будущее (несколько лет) может быть хороший вариант, сейчас можно присоединяться к сообществу, развивать проект, ресерчить
Конечно, с самого начала ориентирована на kubernetes, а не на yarn
От сериализации, по-моему, полностью не избавиться, но arrow всегда заявляют минимальный оверхед
Спасибо за развернутый ответ!
источник

AZ

Anton Zadorozhniy in Data Engineers
а зачем?
источник