Всем привет!
Какие есть best-practice для self-join? Работает, не падает, но очень долго.
Стэк:
- Spark 2.4.4
- Hadoop 2.7
Датафрейм parquet 700 GB и примерно 350 млн строк
val df = spark.read.parquet(…)
val df2 =
df.select(‘column as “column2”, ‘username_col as “username_col2”)
df.join(df2, df(“column) === df2(“column2”))
Да, возможны тут дубли