Помнится задавал вопрос в этом чате, как достать инфу которую спарк показывает в spark ui. В итоге родилось вот что:
https://github.com/sashgorokhov/pyspark-spy - само собирает спарк ивенты и можно без дополнительных екшонов узнать сколько строчек прочитало или записано во время спарк джобы. Это только пример, еще можно узнать сколько шафла было, сколько байт прочитано/записано. В принципе почти все цифры которые можно найти в spark ui.