Size: a a a

2020 July 27

АЖ

Андрей Жуков... in Data Engineers
Andrey Smirnov
смысле, он такой же сишный как и классический xgboost
хм, а хотя там тоже могут быть приколы
но мы тестили именно xgboost python vs pyspark
источник

АЖ

Андрей Жуков... in Data Engineers
Жмака
То есть реализация pandas udf не изменит результат модели?
нет, pandas udf это по сути исполняемый питонячий код на воркере
источник

Ж

Жмака in Data Engineers
Андрей Жуков
нет, pandas udf это по сути исполняемый питонячий код на воркере
Ясно. Спасибо!
источник

АЖ

Андрей Жуков... in Data Engineers
ну и он имеет смысл, если ты можешь нарезать данные на партиции и каждую партицию независимо обработать для ML
а если там надо все данные в один датафрейм собрать, то у тебя пандас юдф только лишние ресурсы пожрет
источник

Ж

Жмака in Data Engineers
Данные собираются в 2 датафрейма по количеству моделей
источник

Ж

Жмака in Data Engineers
Пока размеры не превышали одного гигабайта после всех аггрегаций и манипуляций но сет будет расти в периоды праздников в 10 раз
источник

АЖ

Андрей Жуков... in Data Engineers
гигабайт в паркете - 10+ гигов в памяти у пандаса
источник

АЖ

Андрей Жуков... in Data Engineers
хотя это в старом эрроу и пандасе было, вдруг чо наоптимизировали
источник

Ж

Жмака in Data Engineers
То есть в таком случае есть вероятность что pandas udf   приведёт к медленно бегущему джобу?
источник

АЖ

Андрей Жуков... in Data Engineers
ну нет там черной магии :) как работало в питоне, так и будет работать в пандас юдф
источник

АЖ

Андрей Жуков... in Data Engineers
если только там не было херни типа
for p in partitions:
   p_df = df[df['partition'] == p]
   do_ml(p_df)
источник

Ж

Жмака in Data Engineers
Такой нет)
источник

AS

Andrey Smirnov in Data Engineers
Андрей Жуков
нет, pandas udf это по сути исполняемый питонячий код на воркере
так же как и обычная udf, но обещают экономию на пересылке в памяти (без этих многочисленных pickle), но я не увидел разницы (по крайней мере в спарк 2.5 может в 3.0 что-то подкрутили).
источник

АЖ

Андрей Жуков... in Data Engineers
Andrey Smirnov
так же как и обычная udf, но обещают экономию на пересылке в памяти (без этих многочисленных pickle), но я не увидел разницы (по крайней мере в спарк 2.5 может в 3.0 что-то подкрутили).
даже в тестах Димы на МоскоуСпарк была видна разница, но там был дикий жор ресурсов питонами
источник

AS

Andrey Smirnov in Data Engineers
Андрей Жуков
даже в тестах Димы на МоскоуСпарк была видна разница, но там был дикий жор ресурсов питонами
там был именно сервинг модели?
источник

D

Dmitriy in Data Engineers
День добрый.

А работает кто с хадупоп через информатику?
источник

E

Evgenij in Data Engineers
информатику ??
источник

D

Dmitriy in Data Engineers
Bdm, да :)
источник

Д

Дмитрий in Data Engineers
Да, через bdm.
источник

ME

Max Efremov in Data Engineers
А кто-то хадуп дисрибьютив от сберклауда пробовал?)
источник