Телеграмм чат группы hadoopusers страница 4217

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 16

A

Alex in Data Engineers

то есть выше было:
1. ошибка что сгенерированный метод больше 64кб, поэтому кодеген не будет работать
2. кодеген работает, но сгенерированный метод слишком большой, поэтому в интерпретируемом режиме в jvm будет выполняться, без jit

источник

15:26пожаловаться #1

NN

No Name in Data Engineers

Вот теперь вообще супердоступно, данке)

источник

15:27пожаловаться #2

N

Nikita Blagodarnyy in Data Engineers

А почему кодеген лучше?

источник

15:52пожаловаться #3

A

Alex in Data Engineers

потому что в случае скала кода зачастую приходится работать с десериализованным row
плюс так как методы вызываются из разных мест, то профиль выполнения грязный и весь инлайн идёт по одному месту

источник

15:53пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

кодеген не лучше, просто остальное хуже

источник

15:53пожаловаться #5

A

Alex in Data Engineers

именно =)

источник

15:53пожаловаться #6

ИК

Иван Калининский... in Data Engineers

И в дополнение к ответам это видео)

https://youtu.be/ywPuZ_WrHT0

A Deep Dive into Query Execution Engine of Spark SQL - Maryann Xue

Spark SQL enables Spark to perform efficient and fault-tolerant relational query processing with analytics database technologies. The relational queries are compiled to the executable physical plans consisting of transformations and actions on RDDs with the generated Java code. The code is compiled to Java bytecode, executed at runtime by JVM and optimized by JIT to native machine code at runtime. This talk will take a deep dive into Spark SQL execution engine. The talk includes pipelined execution, whole-stage code generation, UDF execution, memory management, vectorized readers, lineage based RDD transformation and action.

About: Databricks provides a unified data analytics platform, powered by Apache Spark™, that accelerates innovation by unifying data science, engineering and business.
Read more here: https://databricks.com/product/unified-data-analytics-platform

Connect with us:
Website: https://databricks.com
Facebook: https://www.facebook.com/databricksinc
Twitter: https://twitter.com/databricks
Lin…

источник

15:55пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Catalyst это очень крутое техническое достижение конечно, жалко будет если забросят его

источник

15:57пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

сгенеренный кодегеном код получается умеет работать с сериализованными объектами?

источник

16:01пожаловаться #9

A

Alex in Data Engineers

да, это выше про проджект тангстен с сериализованном форматом и тд

источник

16:02пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

видео не смотрел, но предсказываю что там пайплайнинг основные плюшки дает, можно вместо итераторов делать эффективно

источник

16:03пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

практически вся современная оптимизация основана на том чтобы как можно быстрее подносить данные к процессору, держать максимум всего в регистрах и всякое такое

источник

16:06пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

(собственно так эппловые армы рвут конкурентов, фиксированный размер команд и огромная ширина декодера, меньше простоя ALU, было смешно смотреть как до дебюта М1 люди спорили "полетит или не полетит")

источник

16:07пожаловаться #13

A

Alex in Data Engineers

ну там ещё и про то что от vulcane модели ушли когда постоянно getNext дёргали и добавили больше пониманий как данные лежат и векторизацию сверху

источник

16:07пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

точн

источник

16:07пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

переход от итерации к векторизации это самый низкий фрукт обычно, когда дело касается таких батчей

источник

16:08пожаловаться #16

ИК

Иван Калининский... in Data Engineers

ещё low braching нужен, меньше if then, тогда и итератор неплохо работает

источник

16:09пожаловаться #17

ИК

Иван Калининский... in Data Engineers

и вообще, что там с SIMD в JVM? кто слышал?

источник

16:13пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

ну эт само собой, тут еще и меньше утилизация ROB, без бранчинга оно вообще работает с теоретической производительностью)

источник

16:13пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

вчера обсуждали, новая итерация вектора в 17ом завезли, пока инкубатор, с офхипом не работает

источник

16:14пожаловаться #20