Size: a a a

2020 August 31

K

KrivdaTheTriewe in Data Engineers
вот я присла пример
источник

K

KrivdaTheTriewe in Data Engineers
неужели у спарка при spark.write есть проблемы с именами?
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
ну а почему не пользуетесь встроенным функционалом спарка?
да чел часто короч приходится не исопльзовать встроенный функционал спарка сам знаешь
источник

GP

Grigory Pomadchin in Data Engineers
ну тип проще (в долгосрочной перспективе) нормальные сурсы уж на край запилить чем колхозить юнионы)
источник

ИК

Иван Калининский... in Data Engineers
Alexey Evdokimov
ещё есть к чему придраться?
это вы между собой решайте, а конечному пользователю как эту либу использовать? Конкретная проблема у человека есть, что ему нужно набрать, чтоб ее решить и (желательно) не создать пачку новых проблем?
источник

AE

Alexey Evdokimov in Data Engineers
Иван Калининский
это вы между собой решайте, а конечному пользователю как эту либу использовать? Конкретная проблема у человека есть, что ему нужно набрать, чтоб ее решить и (желательно) не создать пачку новых проблем?
просто брать и использовать. если что, автор доступен и может дать пример
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
да чел часто короч приходится не исопльзовать встроенный функционал спарка сам знаешь
нормально интегрироваться со спарком, а не делать обертку над клиентом, это явно вантаймер без конфигурирования
https://github.com/PastorGL/OneRing/blob/master/DistWrapper/src/main/java/ash/nazg/dist/DistWrapper.java#L182 явно эта лоигка есть где - то другом месте и это просто копипаста
источник

K

KrivdaTheTriewe in Data Engineers
прост чем больше кода - тем больше багов
источник

K

KrivdaTheTriewe in Data Engineers
а количество багов зависит от урвня команды
источник

AE

Alexey Evdokimov in Data Engineers
а что если если я сам хочу генерить имена как мне надо
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
нормально интегрироваться со спарком, а не делать обертку над клиентом, это явно вантаймер без конфигурирования
https://github.com/PastorGL/OneRing/blob/master/DistWrapper/src/main/java/ash/nazg/dist/DistWrapper.java#L182 явно эта лоигка есть где - то другом месте и это просто копипаста
ну представь что имя это индекс
источник

AE

Alexey Evdokimov in Data Engineers
короче, кривда не разобрался и не хочет разбираться. ну да и фиг с ним
источник

K

KrivdaTheTriewe in Data Engineers
Alexey Evdokimov
а что если если я сам хочу генерить имена как мне надо
значит скорее всего это не совместимо со всем написанным софтом который решает похожую проблему и/или не сможет  результатом вывода воспользоваться
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
ну представь что имя это индекс
но тут не индекс
источник

AE

Alexey Evdokimov in Data Engineers
если у меня стоит задача эффективно скопировать десяток датасетов из s3 в хдфс на кластер (в разных исходных форматах), я её решаю. путь, куда складывать в hdfs, конфигурируется. количество файлов в хдфс тоже конфигурируется. как их назвать — вообще дело десятое.
источник

AE

Alexey Evdokimov in Data Engineers
а "стандартного" нормального инструмента в емр, окромя s3-dist-cp, между прочим, нет. но паркеты он читать не умеет. везде советуют колхозить с union. и очень странно, что некоторые считают, что нельзя сделать по-человечески
источник

K

KrivdaTheTriewe in Data Engineers
Alexey Evdokimov
если у меня стоит задача эффективно скопировать десяток датасетов из s3 в хдфс на кластер (в разных исходных форматах), я её решаю. путь, куда складывать в hdfs, конфигурируется. количество файлов в хдфс тоже конфигурируется. как их назвать — вообще дело десятое.
spark.read("s3://").parquet.write.csv("hdfs://")
источник

AE

Alexey Evdokimov in Data Engineers
это капец медленно
источник

K

KrivdaTheTriewe in Data Engineers
Await.result(files.map(Future(spark.read("s3://").parquet.write.csv(""))).sequence,время)
источник

AE

Alexey Evdokimov in Data Engineers
это всё равно капец медленно
источник