Size: a a a

2020 December 23

e

er@essbase.ru in Data Engineers
Андрей Жуков
пейтон и пейтон
да уж )) опять выбор из двух зол )
--
Пока PySpark действует в рамках стандартного API, по скорости он действительно может быть сравним со Scala.

При появлении специфичной логики в виде User Defined Functions производительность PySpark заметно снижается. При достаточном объеме информации, когда время обработки блока данных превышает несколько секунд, Python-реализация работает в 5-10 медленнее из-за необходимости перемещать данные между процессами и тратить ресурсы на интерпретацию Python.

Если же появляется использование дополнительных функций, реализованных в C++ модулях, то возникают дополнительные расходы на вызов, и разница между Python и Scala увеличивается до 10-50 раз.
--
https://habr.com/ru/company/odnoklassniki/blog/443324/
источник

A

Alex in Data Engineers
@essbase очевидное невероятное :)

Прямо как с функциями написанными на python когда работаешь с numpy
источник

AB

Andrey Bel in Data Engineers
er@essbase.ru
да уж )) опять выбор из двух зол )
--
Пока PySpark действует в рамках стандартного API, по скорости он действительно может быть сравним со Scala.

При появлении специфичной логики в виде User Defined Functions производительность PySpark заметно снижается. При достаточном объеме информации, когда время обработки блока данных превышает несколько секунд, Python-реализация работает в 5-10 медленнее из-за необходимости перемещать данные между процессами и тратить ресурсы на интерпретацию Python.

Если же появляется использование дополнительных функций, реализованных в C++ модулях, то возникают дополнительные расходы на вызов, и разница между Python и Scala увеличивается до 10-50 раз.
--
https://habr.com/ru/company/odnoklassniki/blog/443324/
ТАк что пока Скала рулит🤟🤟👍👍
источник

OI

Oleg Ilinsky in Data Engineers
er@essbase.ru
да уж )) опять выбор из двух зол )
--
Пока PySpark действует в рамках стандартного API, по скорости он действительно может быть сравним со Scala.

При появлении специфичной логики в виде User Defined Functions производительность PySpark заметно снижается. При достаточном объеме информации, когда время обработки блока данных превышает несколько секунд, Python-реализация работает в 5-10 медленнее из-за необходимости перемещать данные между процессами и тратить ресурсы на интерпретацию Python.

Если же появляется использование дополнительных функций, реализованных в C++ модулях, то возникают дополнительные расходы на вызов, и разница между Python и Scala увеличивается до 10-50 раз.
--
https://habr.com/ru/company/odnoklassniki/blog/443324/
а там же в 3.0 обещали поправить проблемы с питон юдф?
источник

e

er@essbase.ru in Data Engineers
источник

e

er@essbase.ru in Data Engineers
Spark UDF — Deep Insights in Performance | by QuantumBlack | QuantumBlack | Medium
https://medium.com/quantumblack/spark-udf-deep-insights-in-performance-f0a95a4d8c62
источник

KS

K S in Data Engineers
Есть Presto v318 на Ubuntu 16.04 с кучей воркеров под java 8. Вот думаю проапгрейдить джаву до 11й версии и посмотреть станет ли быстрее или экономичнее по памяти. Есть подозрение что мусоросборник работает плохо и засирает оперативку -  из 125ГБ свободно только 2ГБ.
источник

AK

Alena Korogodova in Data Engineers
Про разницу в перформансе udf на скале и питоне только ленивый статью не написал и доклад не сделал
источник

A

Alex in Data Engineers
K S
Есть Presto v318 на Ubuntu 16.04 с кучей воркеров под java 8. Вот думаю проапгрейдить джаву до 11й версии и посмотреть станет ли быстрее или экономичнее по памяти. Есть подозрение что мусоросборник работает плохо и засирает оперативку -  из 125ГБ свободно только 2ГБ.
Можете сказать что значит плохо?

Оно или течёт или нет, но от смены java ничего не поменяется

К 11 чуть больше потюнили g1, например full gc уже не в один поток, а параллельно
источник

A

Alex in Data Engineers
Быстрее или нет, только тесты покажут
источник

A

Alex in Data Engineers
Да, если у вас интеграция с хадуп либами есть, то тестите внимательно, хадуп рантайм от 11 только в 3.3 поддерживать официально начал
источник

KS

K S in Data Engineers
Alex
Можете сказать что значит плохо?

Оно или течёт или нет, но от смены java ничего не поменяется

К 11 чуть больше потюнили g1, например full gc уже не в один поток, а параллельно
Ну в данном случае плохо это просто моё предположение. В настройках престо максимальный размер выделяемой памяти (total) не больше 50ГБ, а 123ГБ чем то забиты.
источник

A

Alex in Data Engineers
Так посмотрите :) вполне возможно там offheap кеш лежит :)
источник

KS

K S in Data Engineers
Alex
Да, если у вас интеграция с хадуп либами есть, то тестите внимательно, хадуп рантайм от 11 только в 3.3 поддерживать официально начал
Спасибо за информацию, у меня хадуп 3.1.1, скорее всего нужно будет весь стек апгрейдить или переводить в k8s.
источник

АЖ

Андрей Жуков... in Data Engineers
за полтора года могло что-то и поменяться
источник

A

Alex in Data Engineers
Не обязательно, я и с 3.2 на 11 работал как клиент hdfs/yarn, но то что у меня работало не значит что у вас будет работать
источник

KS

K S in Data Engineers
Alex
Так посмотрите :) вполне возможно там offheap кеш лежит :)
Я ненастоящий сварщик, пока ещё только учусь.
источник

A

Alex in Data Engineers
jcmd {pid} VM.native_memory summary
источник

A

Alex in Data Engineers
И там будет написано куда jvm что запихнула
источник

A

Alex in Data Engineers
jcmd доступно в jdk
В jre нету
источник