Телеграмм чат группы hadoopusers страница 3183

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2308 membersпожаловаться на группу

2021 January 29

A

Alex in Data Engineers

И ещё наверное меньше ресурсов уходит на SerDe, не знаю сколько это в процентах от общей нагрузки, 2% или 20%, если значительно, то пропускная способность будет выше.

https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

Из старого, там сейчас больше таких вещей в кодогенерации и тд

Project Tungsten: Bringing Apache Spark Closer to Bare Metal

Project Tungsten focuses on improving the efficiency of memory and CPU for Spark applications. Motivated by bottlenecked workloads, Project Tungsten aims to push performance closer to the limits of modern hardware via memory management and binary processing, cache-aware computation, and code generation.

источник

06:29пожаловаться #1

A

Alex in Data Engineers

Grigory Pomadchin

Интересный конечно момент это рапидс и жпу с эрроу

Вот с этим согласен

источник

06:29пожаловаться #2

KS

K S in Data Engineers

Если обратить внимание на пару вещей и молчаливо проигнорировать пачку других, то можно всегда показать свой продукт лучше чем конкурента

Понятно, спасибо за разъяснения. У меня тоже сразу возникло несколько вопросов, например поддержка Хадупа, хайва и т.д.

источник

06:29пожаловаться #3

A

Alex in Data Engineers

Это уже другой вопрос :) но думаю они не на ярн а на кубик целят с самого начала

Меня больше смутило java udf
Дёргать сишный код по jni медленно, но ещё более медленней это дёргать java код из нейтива

источник

06:31пожаловаться #4

A

Alex in Data Engineers

Хайв бинарные драйвера есть, так что ок

Для hdfs тоже есть апи, libhdfs и в виде когда внутри jvm, и с чисто нативной реализацией hdfs протокола

источник

06:32пожаловаться #5

KS

K S in Data Engineers

Хайв бинарные драйвера есть, так что ок

Для hdfs тоже есть апи, libhdfs и в виде когда внутри jvm, и с чисто нативной реализацией hdfs протокола

Вроде бы в арроу уже есть поддержка libhdfs

источник

06:35пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

Это уже другой вопрос :) но думаю они не на ярн а на кубик целят с самого начала

Меня больше смутило java udf
Дёргать сишный код по jni медленно, но ещё более медленней это дёргать java код из нейтива

дергать не особо медленно) медленно его часто дергать а еще более медленно чето копировать

источник

06:37пожаловаться #7

GP

Grigory Pomadchin in Data Engineers

источник

06:37пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

Хайв бинарные драйвера есть, так что ок

Для hdfs тоже есть апи, libhdfs и в виде когда внутри jvm, и с чисто нативной реализацией hdfs протокола

а мне казалось что даж нативная хдфс либа заставляет си процесс стартануть жвм

источник

06:37пожаловаться #9

A

Alex in Data Engineers

Та которая libhdfs стартует внутри jvm

Та которая libhdfspp нативная реализация протокола

источник

06:39пожаловаться #10

A

Alex in Data Engineers

Вроде бы в арроу уже есть поддержка libhdfs

Да, в эрооу ещё и выбирать можно кого использовать

источник

06:39пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

Та которая libhdfs стартует внутри jvm

Та которая libhdfspp нативная реализация протокола

а она еще поддерживается? вроде ее бросили лет 6 назад

источник

06:40пожаловаться #12

A

Alex in Data Engineers

https://github.com/apache/hadoop/tree/trunk/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native/libhdfspp

apache/hadoop

Apache Hadoop. Contribute to apache/hadoop development by creating an account on GitHub.

источник

06:41пожаловаться #13

GP

Grigory Pomadchin in Data Engineers

даже так, спс

источник

06:41пожаловаться #14

A

Alex in Data Engineers

В основной ветке, фиксы влетают, возможно не все фичи мержат, но сказать что не поддерживается тоже нельзя

источник

06:41пожаловаться #15

A

Alex in Data Engineers

Grigory Pomadchin

а мне казалось что даж нативная хдфс либа заставляет си процесс стартануть жвм

Самая жесть была в свое время когда мне надо было из c# постучаться

C# код запускал обертку на плюсах
Cpp обёртка загружала libhdfs сишную
Libhdfs стартовала внутри jvm и загружала java код
Java код уже подключался

И самая боль что по умолчанию readline из шарпов делала getchar и проверяла на перенос строки

Причём этот 1 сивмвол сразу запрашивался до самой java части (в процессе создавая местами new byte[1])

источник

07:02пожаловаться #16

A

Alex in Data Engineers

Работало это не быстро

источник

07:02пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Кто-нибудь пробовал вот эту штуку
https://notamonadtutorial.com/ballista-a-distributed-compute-platform-made-with-rust-and-apache-arrow-5f4d1f51c698

Ballista, a distributed compute platform made with Rust and Apache Arrow

An interview with its creator, Andy Grove

Как раз недавно смотрел, интересовался. Ballista основана на Data Fusion, это проект Энди Гроува, движок обработки запросов, теперь часть Apache Arrow, и это, конечно хорошо. Что не очень хорошо, так то что тулза в разработке. The main focus now is getting the platform to a level of maturity where users can run real-world ETL workloads (с). Энди Гроув пытается больше задействовать сообщество для развития, но к промышленному применению тулза не готова. Не вижу поддержки джоинов, агрегатных фукнций очень мало, файловых форматов только два (csv и parquet). На будущее (несколько лет) может быть хороший вариант, сейчас можно присоединяться к сообществу, развивать проект, ресерчить
Конечно, с самого начала ориентирована на kubernetes, а не на yarn
От сериализации, по-моему, полностью не избавиться, но arrow всегда заявляют минимальный оверхед

источник

11:22пожаловаться #18

KS

K S in Data Engineers

Иван Калининский

Как раз недавно смотрел, интересовался. Ballista основана на Data Fusion, это проект Энди Гроува, движок обработки запросов, теперь часть Apache Arrow, и это, конечно хорошо. Что не очень хорошо, так то что тулза в разработке. The main focus now is getting the platform to a level of maturity where users can run real-world ETL workloads (с). Энди Гроув пытается больше задействовать сообщество для развития, но к промышленному применению тулза не готова. Не вижу поддержки джоинов, агрегатных фукнций очень мало, файловых форматов только два (csv и parquet). На будущее (несколько лет) может быть хороший вариант, сейчас можно присоединяться к сообществу, развивать проект, ресерчить
Конечно, с самого начала ориентирована на kubernetes, а не на yarn
От сериализации, по-моему, полностью не избавиться, но arrow всегда заявляют минимальный оверхед

Спасибо за развернутый ответ!

источник

12:57пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Кто-нибудь пробовал вот эту штуку
https://notamonadtutorial.com/ballista-a-distributed-compute-platform-made-with-rust-and-apache-arrow-5f4d1f51c698

Ballista, a distributed compute platform made with Rust and Apache Arrow

An interview with its creator, Andy Grove

а зачем?

источник

13:01пожаловаться #20