Size: a a a

2020 October 29

AP

Anton Pilipenko in Data Engineers
Привет всем, может кто знает как  спарком (просто спарк, стоит не на кластере, hdfs как бэ нет) записать dataframe данные в s3 (но это не aws) совместимое хранилище? Конкретно не получается переопределить endpoint
источник

DZ

Dmitry Zuev in Data Engineers
Берешь
источник

DZ

Dmitry Zuev in Data Engineers
И пишешь
источник

DZ

Dmitry Zuev in Data Engineers
Какая ошибка? Что делали уже?
источник

ME

Mikhail Epikhin in Data Engineers
Anton Pilipenko
Привет всем, может кто знает как  спарком (просто спарк, стоит не на кластере, hdfs как бэ нет) записать dataframe данные в s3 (но это не aws) совместимое хранилище? Конкретно не получается переопределить endpoint
почему не получается? Через property спокойно переопределяется.
Покажите как это делаете
источник

AP

Anton Pilipenko in Data Engineers
Mikhail Epikhin
почему не получается? Через property спокойно переопределяется.
Покажите как это делаете
    spark.sparkContext.hadoopConfiguration.set("spark.hadoop.fs.s3a.endpoint" ,"https://ololo.ru")
   spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", "https://ololo.ru")
источник

AP

Anton Pilipenko in Data Engineers
Anton Pilipenko
    spark.sparkContext.hadoopConfiguration.set("spark.hadoop.fs.s3a.endpoint" ,"https://ololo.ru")
   spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", "https://ololo.ru")
https://<имя бакета>.s3.amazonaws.com - оно вот по такому адресу пытается обратиться
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Pilipenko
Привет всем, может кто знает как  спарком (просто спарк, стоит не на кластере, hdfs как бэ нет) записать dataframe данные в s3 (но это не aws) совместимое хранилище? Конкретно не получается переопределить endpoint
Ну а типа
--conf spark.hadoop.fs.s3a.endpoint=https://minio-s3 \
--conf spark.hadoop.fs.s3a.secret.key=$SECRET_KEY \
--conf spark.hadoop.fs.s3a.access.key=$ACCESS_KEY
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Pilipenko
https://<имя бакета>.s3.amazonaws.com - оно вот по такому адресу пытается обратиться
Вроде это норма
источник

АЖ

Андрей Жуков... in Data Engineers
А,  типа на амазон ломицо
источник

AP

Anton Pilipenko in Data Engineers
Андрей Жуков
Ну а типа
--conf spark.hadoop.fs.s3a.endpoint=https://minio-s3 \
--conf spark.hadoop.fs.s3a.secret.key=$SECRET_KEY \
--conf spark.hadoop.fs.s3a.access.key=$ACCESS_KEY
пробовал чет не помогло =\
источник

АЖ

Андрей Жуков... in Data Engineers
Аааа
источник

АЖ

Андрей Жуков... in Data Engineers
Хадуп не 2.7?
источник

AP

Anton Pilipenko in Data Engineers
разыне пробовал, а какой рабочий варик? У меня ща оно не на hadoop кластере так что могу подкрутить какой надо
источник

АЖ

Андрей Жуков... in Data Engineers
В 2.8.2 и выше работало у меня,  в 2.7 нишмагло
источник

AP

Anton Pilipenko in Data Engineers
хм ща попробую
источник
2020 October 30

AS

Andrey Smirnov in Data Engineers
в доке яндекса без указания протокола
sc.hadoopConfiguration.set("fs.s3a.endpoint", "storage.yandexcloud.net")
источник

AP

Anton Pilipenko in Data Engineers
Andrey Smirnov
в доке яндекса без указания протокола
sc.hadoopConfiguration.set("fs.s3a.endpoint", "storage.yandexcloud.net")
короче получилось только так:
sc.hadoopConfiguration.set("fs.s3a.endpoint", "
sc.hadoopConfiguration.set("fs.s3a.access.key",
sc.hadoopConfiguration.set("fs.s3a.secret.key",


ща прочекаю что там с версиями тоже отпишусь
источник

AP

Anton Pilipenko in Data Engineers
Andrey Smirnov
в доке яндекса без указания протокола
sc.hadoopConfiguration.set("fs.s3a.endpoint", "storage.yandexcloud.net")
а можешь ссылку дать?
https://www.scaleway.com/en/docs/query-data-on-s3-using-apache-spark-with-hadoop/

я по этому ману смог
источник

AS

Andrey Smirnov in Data Engineers
источник