Телеграмм чат группы hadoopusers страница 3075

у ребят из нвидии спрашивать про GPU.
ну они как бы ОЧЕНЬ ЗАИНТЕРЕСОВАНЫ чтобы видяшечка тащила всё в n раз быстрее т.е. они предвзято будут судить как по мне

тут хорошие ребята по делу консультируют давайка не бычить

источник

13:56пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

ME

Max Efremov in Data Engineers

А для добавления gpu в кластер надо с кубером что-то придумывать, emr не может же вроде такого?

источник

13:57пожаловаться #7

ME

Max Efremov in Data Engineers

Ну или на ec2...

источник

13:57пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

Al T

моя не смотрел, можно ссылочку плз?

https://youtu.be/hQI-QYJXlVU @ 2h:30m гдето

AT

Al T in Data Engineers

Max Efremov

А для добавления gpu в кластер надо с кубером что-то придумывать, emr не может же вроде такого?

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-rapids.html

Amazon

Using the Nvidia Spark-RAPIDS Accelerator for Spark - Amazon EMR

With Amazon EMR release version 6.2.0 and later, you can use Nvidia’s RAPIDS Accelerator for Apache Spark plugin to accelerate Spark using EC2 graphics processing unit (GPU) instance types. Rapids Accelerator will GPU-accelerate your Apache Spark 3.0 data science pipelines without code changes and speed up data processing and model training, while substantially lowering infrastructure costs.

источник

13:59пожаловаться #10

AT

Al T in Data Engineers

c 6.2.0

источник

13:59пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

Grigory Pomadchin

https://youtu.be/hQI-QYJXlVU @ 2h:30m гдето

YouTube

Moscow Spark #10

Ето сама презентация*

источник

14:00пожаловаться #12

PK

Pavel Klemenkov in Data Engineers

V. M.

у ребят из нвидии спрашивать про GPU.
ну они как бы ОЧЕНЬ ЗАИНТЕРЕСОВАНЫ чтобы видяшечка тащила всё в n раз быстрее т.е. они предвзято будут судить как по мне

Привет от ребят из Нвидии. Канеш мы заинтересованы, чтоб на GPU тащило хорошо, чтоб вы GPU покупали. Но ток для этого оно действительно должно тащить, поэтому работы еще много. По факту презентацию Самира с последнего митапа кидали выше. Мы тести Spark GPU для нашей дата платформы. Пока результаты смешанные. Есть некоторые запросы, на которых GPU быстрее, есть некоторые где медленней. У RAPIDS плагина довольно много CUDA-специфичных настроек, с которыми надо играться, как-то количество CUDA тредов, работа аллкатора памяти. Кароч как и в обычном Спарке нужно сидеть и тюнить

источник

14:03пожаловаться #13

PK

Pavel Klemenkov in Data Engineers

Из хорошего: ридеры паркета на GPU реально шустрее, чем CPU как бы странно это не звучало. 2) Оно просто работает. Там, где может меняет физические операторы на GPU версии, гден не может фолбэчится на CPU. Это плохо, конечно, потому что перекидывание данных из систменой памяти в GPU убивает весь профит, но первоначальная задача была сделать drop-in replacement. А потом уже запиматься оптимизацией.

источник

14:04пожаловаться #14

NN

No Name in Data Engineers

Pavel Klemenkov

Из хорошего: ридеры паркета на GPU реально шустрее, чем CPU как бы странно это не звучало. 2) Оно просто работает. Там, где может меняет физические операторы на GPU версии, гден не может фолбэчится на CPU. Это плохо, конечно, потому что перекидывание данных из систменой памяти в GPU убивает весь профит, но первоначальная задача была сделать drop-in replacement. А потом уже запиматься оптимизацией.

А почему именно паркет, а не тот же орк?

источник

14:16пожаловаться #15

ME

Max Efremov in Data Engineers

Pavel Klemenkov

Из хорошего: ридеры паркета на GPU реально шустрее, чем CPU как бы странно это не звучало. 2) Оно просто работает. Там, где может меняет физические операторы на GPU версии, гден не может фолбэчится на CPU. Это плохо, конечно, потому что перекидывание данных из систменой памяти в GPU убивает весь профит, но первоначальная задача была сделать drop-in replacement. А потом уже запиматься оптимизацией.

А вы юзаете фичу, когда видюха сразу с диска тянет данные, без процессора?

источник

14:19пожаловаться #16

GP

Grigory Pomadchin in Data Engineers

No Name

А почему именно паркет, а не тот же орк?

орк тож быстрее должен быть (в доке сказано)

источник

14:21пожаловаться #17

PK

Pavel Klemenkov in Data Engineers