Size: a a a

2021 October 13

AE

Alexey Evdokimov in Data Engineers
пишите свой. это помимо всего прочего ещё и просто. я всегда так делаю...
источник

AE

Alexey Evdokimov in Data Engineers
btw DSL это не обязательно именно язык со словами текстом. это может быть и API со структурой из глаголов и сущностей. или чё-нить в духе AOP, когда эндпойнты увешаны метаданными, которые декларативно задают правила, и сама последовательность вызовов читается как связный текст
источник

AZ

Anton Zadorozhniy in Data Engineers
да и графическая нотация может быть, чо уж там
источник

AE

Alexey Evdokimov in Data Engineers
вполне, только обычно это самый неэффективный способ :)
источник

AZ

Anton Zadorozhniy in Data Engineers
в пределе может быть прям CNL, навроде ASD STE
источник

AE

Alexey Evdokimov in Data Engineers
по факту, требование к любым DSL только одно: адекватно описывать процесс конкретной предметной области. на то они и domain specific
источник

AS

Andrey Smirnov in Data Engineers
какой-то старый код, одни var, должны быть const, и где обработка ошибок, хотя о чем это я, это же node, там не принято так делать
источник

ПБ

Повелитель Бури... in Data Engineers
источник

K

KrivdaTheTriewe in Data Engineers
@tenKe Подскажи пожалуйста , получилось что то найти приемлимое для оч больших джсонов для которых невохможно схему вывести, чтобы их хоть как Map[String,String]  получить?
источник

K

KrivdaTheTriewe in Data Engineers
зануляет вообще все(
источник
2021 October 14

В

Вячеслав in Data Engineers
А как это связано с изначальным запросом?
Ну, там DSL для правил используется, ок, как тут и ответили сразу несколько человек.
источник

K

KGM in Data Engineers
Всем привет!

Какие есть best-practice для self-join? Работает, не падает, но очень долго.

Стэк:
- Spark 2.4.4
- Hadoop 2.7

Датафрейм parquet 700 GB и примерно 350 млн строк

val df = spark.read.parquet(…)
val df2 = df.select(‘column as “column2”, ‘username_col as “username_col2”)

df.join(df2, df(“column) === df2(“column2”))

Да, возможны тут дубли
источник

AK

Arseniy Kocharov ✔️... in Data Engineers
Чуваки, кто нибудь знает сайт, где можно руку набить решая типичные задачи на Scala spark?
источник

ИК

Иван Калининский... in Data Engineers
localhost с поднятым кластером. Извините)
источник

ММ

Максим Митяев... in Data Engineers
Что научиться поднимать, нужно ... поднимать ?
источник

AK

Arseniy Kocharov ✔️... in Data Engineers
))0)0
источник

ИК

Иван Калининский... in Data Engineers
Смотрю на код, не понимаю, зачем join? column и column2 - одна и та же колонка!
источник

AA

Artem Aliev in Data Engineers
видимо должно быть 2 колонки ;). главный BP для всех graph traversal и когдп собрался долго мучать одну таблицу: df.cache()
источник

ИК

Иван Калининский... in Data Engineers
df.withColumn(“column2”, ‘column).withColumn(“username_col2”, ‘username_col) - вот плюс 2 колонки, ничего джойнить не надо!

Так это тут всего 700Гб в кеш из сорса пойдёт, а если будет в сто раз больше? И это ещё нераспакованный объём
источник

KS

KONAN SILVAIN in Data Engineers
hello
источник