В Pyspark по умолчанию данные пишутся в кучу csv-файлов. Чтобы записать в один, надо сделать .coalesce(1). К сожалению, в моем случае это приводит к завершению job-а, подозреваю, что банальная нехватка памяти. Как можно записать результаты в один файл без coalesce?
Всем привет, подскажите пожалуйста. Вот у меня есть определенный датафрейм (dtype=bool), я хочу убрать из него все строки, где есть хотя бы один False. Как это сделать?