Телеграмм чат группы hadoopusers страница 3089

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2171 membersпожаловаться на группу

2020 December 23

e

er@essbase.ru in Data Engineers

Андрей Жуков

пейтон и пейтон

да уж )) опять выбор из двух зол )
--
Пока PySpark действует в рамках стандартного API, по скорости он действительно может быть сравним со Scala.

При появлении специфичной логики в виде User Defined Functions производительность PySpark заметно снижается. При достаточном объеме информации, когда время обработки блока данных превышает несколько секунд, Python-реализация работает в 5-10 медленнее из-за необходимости перемещать данные между процессами и тратить ресурсы на интерпретацию Python.

Если же появляется использование дополнительных функций, реализованных в C++ модулях, то возникают дополнительные расходы на вызов, и разница между Python и Scala увеличивается до 10-50 раз.
--
https://habr.com/ru/company/odnoklassniki/blog/443324/

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом

Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и...

источник

10:32пожаловаться #1

A

Alex in Data Engineers

@essbase очевидное невероятное :)

Прямо как с функциями написанными на python когда работаешь с numpy

источник

10:37пожаловаться #2

AB

Andrey Bel in Data Engineers

да уж )) опять выбор из двух зол )
--
Пока PySpark действует в рамках стандартного API, по скорости он действительно может быть сравним со Scala.

При появлении специфичной логики в виде User Defined Functions производительность PySpark заметно снижается. При достаточном объеме информации, когда время обработки блока данных превышает несколько секунд, Python-реализация работает в 5-10 медленнее из-за необходимости перемещать данные между процессами и тратить ресурсы на интерпретацию Python.

Если же появляется использование дополнительных функций, реализованных в C++ модулях, то возникают дополнительные расходы на вызов, и разница между Python и Scala увеличивается до 10-50 раз.
--
https://habr.com/ru/company/odnoklassniki/blog/443324/

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом

Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и...

ТАк что пока Скала рулит🤟🤟👍👍

источник

10:38пожаловаться #3

OI

Oleg Ilinsky in Data Engineers

да уж )) опять выбор из двух зол )
--
Пока PySpark действует в рамках стандартного API, по скорости он действительно может быть сравним со Scala.

При появлении специфичной логики в виде User Defined Functions производительность PySpark заметно снижается. При достаточном объеме информации, когда время обработки блока данных превышает несколько секунд, Python-реализация работает в 5-10 медленнее из-за необходимости перемещать данные между процессами и тратить ресурсы на интерпретацию Python.

Если же появляется использование дополнительных функций, реализованных в C++ модулях, то возникают дополнительные расходы на вызов, и разница между Python и Scala увеличивается до 10-50 раз.
--
https://habr.com/ru/company/odnoklassniki/blog/443324/

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом

Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Немалый вклад в её популярность вносит и...

а там же в 3.0 обещали поправить проблемы с питон юдф?

источник

10:40пожаловаться #4

e

er@essbase.ru in Data Engineers

источник

10:46пожаловаться #5

e

er@essbase.ru in Data Engineers

Spark UDF — Deep Insights in Performance | by QuantumBlack | QuantumBlack | Medium
https://medium.com/quantumblack/spark-udf-deep-insights-in-performance-f0a95a4d8c62

источник

10:46пожаловаться #6

KS

K S in Data Engineers

Есть Presto v318 на Ubuntu 16.04 с кучей воркеров под java 8. Вот думаю проапгрейдить джаву до 11й версии и посмотреть станет ли быстрее или экономичнее по памяти. Есть подозрение что мусоросборник работает плохо и засирает оперативку - из 125ГБ свободно только 2ГБ.

источник

10:51пожаловаться #7

AK

Alena Korogodova in Data Engineers

Про разницу в перформансе udf на скале и питоне только ленивый статью не написал и доклад не сделал

источник

10:52пожаловаться #8

A

Alex in Data Engineers

Есть Presto v318 на Ubuntu 16.04 с кучей воркеров под java 8. Вот думаю проапгрейдить джаву до 11й версии и посмотреть станет ли быстрее или экономичнее по памяти. Есть подозрение что мусоросборник работает плохо и засирает оперативку - из 125ГБ свободно только 2ГБ.

Можете сказать что значит плохо?

Оно или течёт или нет, но от смены java ничего не поменяется

К 11 чуть больше потюнили g1, например full gc уже не в один поток, а параллельно

источник

10:54пожаловаться #9

A

Alex in Data Engineers

Быстрее или нет, только тесты покажут

источник

10:54пожаловаться #10

A

Alex in Data Engineers

Да, если у вас интеграция с хадуп либами есть, то тестите внимательно, хадуп рантайм от 11 только в 3.3 поддерживать официально начал

источник

10:56пожаловаться #11

KS

K S in Data Engineers

Можете сказать что значит плохо?

Оно или течёт или нет, но от смены java ничего не поменяется

К 11 чуть больше потюнили g1, например full gc уже не в один поток, а параллельно

Ну в данном случае плохо это просто моё предположение. В настройках престо максимальный размер выделяемой памяти (total) не больше 50ГБ, а 123ГБ чем то забиты.

источник

10:57пожаловаться #12

A

Alex in Data Engineers

Так посмотрите :) вполне возможно там offheap кеш лежит :)

источник

10:57пожаловаться #13

KS

K S in Data Engineers

Да, если у вас интеграция с хадуп либами есть, то тестите внимательно, хадуп рантайм от 11 только в 3.3 поддерживать официально начал

Спасибо за информацию, у меня хадуп 3.1.1, скорее всего нужно будет весь стек апгрейдить или переводить в k8s.

источник

11:00пожаловаться #14

АЖ

Андрей Жуков... in Data Engineers

за полтора года могло что-то и поменяться

источник

11:00пожаловаться #15

A

Alex in Data Engineers

Не обязательно, я и с 3.2 на 11 работал как клиент hdfs/yarn, но то что у меня работало не значит что у вас будет работать

источник

11:00пожаловаться #16

KS

K S in Data Engineers

Так посмотрите :) вполне возможно там offheap кеш лежит :)

Я ненастоящий сварщик, пока ещё только учусь.

источник

11:00пожаловаться #17

A

Alex in Data Engineers

jcmd {pid} VM.native_memory summary

источник

11:03пожаловаться #18

A

Alex in Data Engineers

И там будет написано куда jvm что запихнула

источник

11:03пожаловаться #19

A

Alex in Data Engineers

jcmd доступно в jdk
В jre нету

источник

11:04пожаловаться #20