Size: a a a

2020 November 04

AZ

Anton Zadorozhniy in Data Engineers
Большой ворклоад надо в сам кластер на эдж ноду тащить
источник

E

Evgeny in Data Engineers
Сейчас как раз на десятку его перевожу, вот и посмотрим)
источник

AZ

Anton Zadorozhniy in Data Engineers
Evgeny
Он вполне хорошо масштабируется. На тестах гигабит в лёгкую прокачивает
У нас внутри кластеров Infiniband QDRx2
источник

Д

Дмитрий in Data Engineers
Anton Zadorozhniy
У нас внутри кластеров Infiniband QDRx2
👍 задержки предсказуемые ....
источник

Д

Дмитрий in Data Engineers
Evgeny
Сейчас как раз на десятку его перевожу, вот и посмотрим)
С ssl ?
источник

E

Evgeny in Data Engineers
У меня - математики будут стягивать что-то ближе к ГПУ и обучать/моделировать вот через knox
источник

E

Evgeny in Data Engineers
Ага
источник

E

Evgeny in Data Engineers
Anton Zadorozhniy
У нас внутри кластеров Infiniband QDRx2
Годнота
источник

Д

Дмитрий in Data Engineers
Evgeny
У меня - математики будут стягивать что-то ближе к ГПУ и обучать/моделировать вот через knox
Стягивать через что ? Я питон уже обучил работе через ssl, kerberos через jdbc hive.
источник

E

Evgeny in Data Engineers
Дмитрий
Стягивать через что ? Я питон уже обучил работе через ssl, kerberos через jdbc hive.
Webhdfs, наверное
источник

Д

Дмитрий in Data Engineers
Ну тоже тема.
источник

E

Evgeny in Data Engineers
Дмитрий
Стягивать через что ? Я питон уже обучил работе через ssl, kerberos через jdbc hive.
Вроде, была обёртка pyox
источник

E

Evgeny in Data Engineers
Хотя, керберизированное, может и не взлететь
источник

Д

Дмитрий in Data Engineers
Дописать можно.
источник

AZ

Anton Zadorozhniy in Data Engineers
Да, request_kerberos в помощь
источник
2020 November 05

AG

Alexander Gorokhov in Data Engineers
Renarde
вот так можно:
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 1)
spark.conf.set("spark.sql.join.preferSortMergeJoin", false)
spark.conf.set("spark.sql.adaptive.enabled", false)

val dataset = Seq(
 (0, "playing"),
 (1, "with"),
 (2, "ShuffledHashJoinExec")
).toDF("id", "token")

val q = dataset.hint("shuffle_hash").join(dataset, Seq("id"))
q.explain
А где бы про все доступные хинты узнать?
источник

R

Renarde in Data Engineers
Alexander Gorokhov
А где бы про все доступные хинты узнать?
источник

SS

Sergey Sheremeta in Data Engineers
приветики! а тут есть специалисты по Apache NiFi? (в профильном чате был, там молчат на мой вопрос)
источник

SS

Sergey Sheremeta in Data Engineers
подскажите, пожалуйста, как через LookupRecord добавить результат RestLookupService, возвращаемый как JSON, как строковое поле в record-set?
вот такая авро-схема для моего record-set'а:
{
 "name": "Documents",
 "namespace": "nifi",
 "type": "record",
 "fields": [
   { "name": "docId", "type": "string" },
   { "name": "type", "type": "string" },
   { "name": "docBody", "type": "string" }
 ]
}

процессор LookupRecord выгребает из RestLookupService для каждого docId тело документа - это тело в формате json
и я не могу сообразить как мне этот json конвертнуть в строку, чтобы она корректно влезла в поле docBody
на выходе получаю такое:

{
 "docId" : "URCPT00000000000000168093-6145",
 "type" : "RECEIPT",
 "docBody" : "MapRecord[{receipt=MapRecord[{dateTime=1604304000, indicationfiscalSign=0, fiscalDocumentFormatVer=2, code=3, userInn=000000000, operationType=1, taxationType=1, items=[Ljava.lang.Object;@7d1ca244]}]"
}
источник

АС

Артур Семенов... in Data Engineers
Всем привет, кто-нибудь использует какие-нибудь формулы для создания Спарк приложений, чтобы корректно (оптимально) использовать ресурсы кластера, если вас на нем фиксированное количество человек?
Речь про настройку Спарк контекста
Поделитесь плиз опытом
источник