Всем привет!
У меня вообще вопрос по pyspark. Великие умы, пожалуйста ответьте!
Хочу считать parquet со схемой, где используются только определенные колонки. В скале можно было написать условно
SparkSession.read.parquet(file).as[T]
А в питоне не знаю как правильно, не знаю. Пробую так
df = spark.read.format("parquet")\
.schema(Schema)\
.options(header =True, delimiter='\t' ) \
.load(file)
При попытке вывода
df.head()
Выходит ошибка
Py4JJavaError: An error occurred while calling o50.collectToPython.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 1 times, most recent failure: Lost task 0.0 in stage 2.0 (TID 2) ( executor driver): java.lang.RuntimeException: file:/C:/Users//Desktop/databricks/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [45, 34, 13, 10]