Телеграмм чат группы hadoopusers страница 2580

ну и он имеет смысл, если ты можешь нарезать данные на партиции и каждую партицию независимо обработать для ML
а если там надо все данные в один датафрейм собрать, то у тебя пандас юдф только лишние ресурсы пожрет

источник

20:02пожаловаться #4

Жмака in Data Engineers

Данные собираются в 2 датафрейма по количеству моделей

источник

20:04пожаловаться #5

Жмака in Data Engineers

Пока размеры не превышали одного гигабайта после всех аггрегаций и манипуляций но сет будет расти в периоды праздников в 10 раз

источник

20:05пожаловаться #6

АЖ

Андрей Жуков... in Data Engineers

гигабайт в паркете - 10+ гигов в памяти у пандаса

источник

20:06пожаловаться #7

АЖ

Андрей Жуков... in Data Engineers

хотя это в старом эрроу и пандасе было, вдруг чо наоптимизировали

источник

20:07пожаловаться #8

Жмака in Data Engineers

То есть в таком случае есть вероятность что pandas udf приведёт к медленно бегущему джобу?

источник

20:10пожаловаться #9

АЖ

Андрей Жуков... in Data Engineers

ну нет там черной магии :) как работало в питоне, так и будет работать в пандас юдф

источник

20:12пожаловаться #10

АЖ

Андрей Жуков... in Data Engineers

если только там не было херни типа

for p in partitions:
    p_df = df[df['partition'] == p]
    do_ml(p_df)

источник

20:14пожаловаться #11

Жмака in Data Engineers

Такой нет)

источник

20:15пожаловаться #12

Andrey Smirnov in Data Engineers

Андрей Жуков

нет, pandas udf это по сути исполняемый питонячий код на воркере

так же как и обычная udf, но обещают экономию на пересылке в памяти (без этих многочисленных pickle), но я не увидел разницы (по крайней мере в спарк 2.5 может в 3.0 что-то подкрутили).

источник

20:26пожаловаться #13

АЖ

Андрей Жуков... in Data Engineers

Andrey Smirnov

даже в тестах Димы на МоскоуСпарк была видна разница, но там был дикий жор ресурсов питонами

источник

20:27пожаловаться #14

Andrey Smirnov in Data Engineers

Андрей Жуков

даже в тестах Димы на МоскоуСпарк была видна разница, но там был дикий жор ресурсов питонами

там был именно сервинг модели?