ну и он имеет смысл, если ты можешь нарезать данные на партиции и каждую партицию независимо обработать для ML а если там надо все данные в один датафрейм собрать, то у тебя пандас юдф только лишние ресурсы пожрет
нет, pandas udf это по сути исполняемый питонячий код на воркере
так же как и обычная udf, но обещают экономию на пересылке в памяти (без этих многочисленных pickle), но я не увидел разницы (по крайней мере в спарк 2.5 может в 3.0 что-то подкрутили).
так же как и обычная udf, но обещают экономию на пересылке в памяти (без этих многочисленных pickle), но я не увидел разницы (по крайней мере в спарк 2.5 может в 3.0 что-то подкрутили).
даже в тестах Димы на МоскоуСпарк была видна разница, но там был дикий жор ресурсов питонами