Телеграмм чат группы hadoopusers страница 2690

это вы между собой решайте, а конечному пользователю как эту либу использовать? Конкретная проблема у человека есть, что ему нужно набрать, чтоб ее решить и (желательно) не создать пачку новых проблем?

источник

16:26пожаловаться #5

AE

Alexey Evdokimov in Data Engineers

Иван Калининский

это вы между собой решайте, а конечному пользователю как эту либу использовать? Конкретная проблема у человека есть, что ему нужно набрать, чтоб ее решить и (желательно) не создать пачку новых проблем?

просто брать и использовать. если что, автор доступен и может дать пример

источник

16:27пожаловаться #6

K

KrivdaTheTriewe in Data Engineers

Grigory Pomadchin

да чел часто короч приходится не исопльзовать встроенный функционал спарка сам знаешь

нормально интегрироваться со спарком, а не делать обертку над клиентом, это явно вантаймер без конфигурирования
https://github.com/PastorGL/OneRing/blob/master/DistWrapper/src/main/java/ash/nazg/dist/DistWrapper.java#L182 явно эта лоигка есть где - то другом месте и это просто копипаста

GitHub

PastorGL/OneRing

One Ring is a framework to unify, unite and bind Apache Spark-based computing modules, and run them in parametrized chains - PastorGL/OneRing

источник

16:27пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

прост чем больше кода - тем больше багов

источник

16:27пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

а количество багов зависит от урвня команды

источник

16:28пожаловаться #9

AE

Alexey Evdokimov in Data Engineers

а что если если я сам хочу генерить имена как мне надо

источник

16:28пожаловаться #10

GP

Grigory Pomadchin in Data Engineers

KrivdaTheTriewe

нормально интегрироваться со спарком, а не делать обертку над клиентом, это явно вантаймер без конфигурирования
https://github.com/PastorGL/OneRing/blob/master/DistWrapper/src/main/java/ash/nazg/dist/DistWrapper.java#L182 явно эта лоигка есть где - то другом месте и это просто копипаста

GitHub

PastorGL/OneRing

One Ring is a framework to unify, unite and bind Apache Spark-based computing modules, and run them in parametrized chains - PastorGL/OneRing

ну представь что имя это индекс

источник

16:28пожаловаться #11

AE

Alexey Evdokimov in Data Engineers

короче, кривда не разобрался и не хочет разбираться. ну да и фиг с ним

источник

16:29пожаловаться #12

K

KrivdaTheTriewe in Data Engineers

Alexey Evdokimov

а что если если я сам хочу генерить имена как мне надо

значит скорее всего это не совместимо со всем написанным софтом который решает похожую проблему и/или не сможет результатом вывода воспользоваться

источник

16:29пожаловаться #13

K

KrivdaTheTriewe in Data Engineers

Grigory Pomadchin

ну представь что имя это индекс

но тут не индекс

источник

16:29пожаловаться #14

AE

Alexey Evdokimov in Data Engineers

если у меня стоит задача эффективно скопировать десяток датасетов из s3 в хдфс на кластер (в разных исходных форматах), я её решаю. путь, куда складывать в hdfs, конфигурируется. количество файлов в хдфс тоже конфигурируется. как их назвать — вообще дело десятое.

источник

16:32пожаловаться #15

AE

Alexey Evdokimov in Data Engineers

а "стандартного" нормального инструмента в емр, окромя s3-dist-cp, между прочим, нет. но паркеты он читать не умеет. везде советуют колхозить с union. и очень странно, что некоторые считают, что нельзя сделать по-человечески

источник

16:34пожаловаться #16

K

KrivdaTheTriewe in Data Engineers

Alexey Evdokimov

если у меня стоит задача эффективно скопировать десяток датасетов из s3 в хдфс на кластер (в разных исходных форматах), я её решаю. путь, куда складывать в hdfs, конфигурируется. количество файлов в хдфс тоже конфигурируется. как их назвать — вообще дело десятое.

spark.read("s3://").parquet.write.csv("hdfs://")

источник

16:34пожаловаться #17

AE

Alexey Evdokimov in Data Engineers

это капец медленно

источник

16:34пожаловаться #18

K

KrivdaTheTriewe in Data Engineers

Await.result(files.map(Future(spark.read("s3://").parquet.write.csv(""))).sequence,время)

источник

16:37пожаловаться #19

AE

Alexey Evdokimov in Data Engineers

это всё равно капец медленно

источник

16:37пожаловаться #20