Size: a a a

2021 October 16

ЕГ

Евгений Глотов... in Data Engineers
Но ты запускаешь правда не сессию, а спарк-сабмит, возможно он запускается с дефолтным питоном
источник

Е

Евгений in Data Engineers
питон в образе почему-то не видит bin, хотя копируется естественно вся папка spark целиком
источник

A

Alex in Data Engineers
а зачем вы питон в папку спарка пихаете?
источник

ET

E T in Data Engineers
Как за 2 суток выучить спарк к собессу?)  
Чтобы прям понимать то, что внутри крутится.
Из требований год спарка и кафки.
До этого к спарку только sql запросы писал и препроцессил чуть чуть данные.
источник

ET

E T in Data Engineers
источник

ET

E T in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
мне каежтся за пару суток анрил; ток если ты повторяешь но знаешь / когда-то знал
источник

GP

Grigory Pomadchin in Data Engineers
может есть конечно какие-то консолидированые материалы - яцека полистать
но я не знаю на скок это влияет на понимание внутрянок спарка
источник

ЕГ

Евгений Глотов... in Data Engineers
Написать сложный запрос с джойнами и оконками, посмотреть в spark ui и каждый синий квадратик загуглить
источник

ЕГ

Евгений Глотов... in Data Engineers
Посмотреть, что делается при этом на вкладке jobs
источник

ЕГ

Евгений Глотов... in Data Engineers
Там тоже каждое название загуглить
источник

GP

Grigory Pomadchin in Data Engineers
ах я криво читаю ‘из требований год'
источник

Е

Евгений in Data Engineers
не пихаю, папка python уже есть в дистрибутиве наравне с остальными
я просто чекнул что она видна, а bin почему-то не видна
источник

A

Aleksandr in Data Engineers
про pyspark_home не забыли?
источник

GP

Grigory Pomadchin in Data Engineers
ну и к тому что женя написал добавь (пролистай их)

https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/
https://jaceklaskowski.gitbooks.io/mastering-spark-sql/content/
источник

ET

E T in Data Engineers
Спасибо!
источник

Е

Евгений in Data Engineers
было выше. SPARK_HOME прописан и подхватывается верно, я сделал такой вывод из того, что спарк сессия хочет запуститься из правильного места. Но в процессе ему нужна папка bin, а она не видна в контейнере. Может надо chmod еще после, попробую позже
источник

A

Aleksandr in Data Engineers
сорян, тупанул, pyspark_python
источник

Е

Евгений in Data Engineers
а что pyspark_python?
источник

GB

Gennadiy Bbb in Data Engineers
Всем привет. Подскажите плиз решение проблемы
Column type: STRING, Parquet schema:
optional int32 <column_name> [i:36 d:1 r:0]
источник