Size: a a a

2019 November 13

RI

Rustam Iksanov in Data Engineers
Ilya Pribytkov
ребята вот как мне взять из одного дататфреема сделать другой дата фрейм с модефицмрованнными колонками или вообще с новыми на основе старых, тоесть в двух новых должны быть старые а третья новая в которой отношение значений двух старых
withColumn добавит новую колонку
источник

RI

Rustam Iksanov in Data Engineers
сделай udf и потом так `withColumn("newColumn", udf($"oldColumn"))
источник

RI

Rustam Iksanov in Data Engineers
если спарк умеет, то он может сам вычислить отношения между колонками, например, если нужно вычислить просто сумму между ними
источник

IP

Ilya Pribytkov in Data Engineers
Rustam Iksanov
сделай udf и потом так `withColumn("newColumn", udf($"oldColumn"))
источник

IP

Ilya Pribytkov in Data Engineers
в 16 строке с udf  не прокатило...
источник

RI

Rustam Iksanov in Data Engineers
udf -> user defined function
источник

IP

Ilya Pribytkov in Data Engineers
Rustam Iksanov
udf -> user defined function
ахах
источник

M

Mi in Data Engineers
Вам бы сначала основы спарка подучить, базовые вещи же
источник

IP

Ilya Pribytkov in Data Engineers
Mi
Вам бы сначала основы спарка подучить, базовые вещи же
например
источник

AS

Anton Shelin in Data Engineers
если на входе 2 колонки col1, col2 то вам надо например так df = df.withColumn("res", f.col('col1') > f.col('col2'))  в результате будет датафрейм с 3мя колонками col1,col2,res в res будет результат отношения между col1 и col2
источник

M

Mi in Data Engineers
Ilya Pribytkov
например
источник

IP

Ilya Pribytkov in Data Engineers
спасибо
источник

IP

Ilya Pribytkov in Data Engineers
Anton Shelin
если на входе 2 колонки col1, col2 то вам надо например так df = df.withColumn("res", f.col('col1') > f.col('col2'))  в результате будет датафрейм с 3мя колонками col1,col2,res в res будет результат отношения между col1 и col2
f.col('col1') > f.col('col2')) f - это что?
источник

AS

Anton Shelin in Data Engineers
Ilya Pribytkov
f.col('col1') > f.col('col2')) f - это что?
в pyspark это синоним from pyspark.sql import functions as f, тоже самое что  в скале $"columnName"
источник

AS

Anton Shelin in Data Engineers
Anton Shelin
в pyspark это синоним from pyspark.sql import functions as f, тоже самое что  в скале $"columnName"
в скале можно и так import org.apache.spark.sql.functions.col
источник

ЕГ

Евгений Глотов in Data Engineers
Anton Shelin
в pyspark это синоним from pyspark.sql import functions as f, тоже самое что  в скале $"columnName"
Press f to spark.sql😆
источник

ЕГ

Евгений Глотов in Data Engineers
В питоне тоже можно from pyspark.sql.functions import *
источник

AS

Anton Shelin in Data Engineers
Евгений Глотов
В питоне тоже можно from pyspark.sql.functions import *
ну это плохо так как все импортится в общее болото
источник

AS

Anton Shelin in Data Engineers
Anton Shelin
ну это плохо так как все импортится в общее болото
так то да можно
источник

ЕГ

Евгений Глотов in Data Engineers
Anton Shelin
ну это плохо так как все импортится в общее болото
Да пофиг, встроенные функции можно и через builtins достать)
источник