Телеграмм чат группы hadoopusers страница 4348

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 October 13

Alexey Evdokimov in Data Engineers

пишите свой. это помимо всего прочего ещё и просто. я всегда так делаю...

источник

19:34пожаловаться #1

Alexey Evdokimov in Data Engineers

btw DSL это не обязательно именно язык со словами текстом. это может быть и API со структурой из глаголов и сущностей. или чё-нить в духе AOP, когда эндпойнты увешаны метаданными, которые декларативно задают правила, и сама последовательность вызовов читается как связный текст

источник

19:38пожаловаться #2

Anton Zadorozhniy in Data Engineers

да и графическая нотация может быть, чо уж там

источник

19:38пожаловаться #3

Alexey Evdokimov in Data Engineers

вполне, только обычно это самый неэффективный способ :)

источник

19:39пожаловаться #4

Anton Zadorozhniy in Data Engineers

в пределе может быть прям CNL, навроде ASD STE

источник

19:45пожаловаться #5

Alexey Evdokimov in Data Engineers

по факту, требование к любым DSL только одно: адекватно описывать процесс конкретной предметной области. на то они и domain specific

источник

19:46пожаловаться #6

Andrey Smirnov in Data Engineers

какой-то старый код, одни var, должны быть const, и где обработка ошибок, хотя о чем это я, это же node, там не принято так делать

источник

19:56пожаловаться #7

ПБ

Повелитель Бури... in Data Engineers

Вот ссылка https://medium.com/avitotech/metadata-management-system-in-avito-d4db2d6b95b0

Medium

Metadata management system in Avito

Every classified at some point in its growth has to tackle the problem of ordering its metadata. Why is this such a big deal?

источник

22:54пожаловаться #8

KrivdaTheTriewe in Data Engineers

@tenKe Подскажи пожалуйста , получилось что то найти приемлимое для оч больших джсонов для которых невохможно схему вывести, чтобы их хоть как Map[String,String] получить?

источник

23:27пожаловаться #9

KrivdaTheTriewe in Data Engineers

зануляет вообще все(

источник

23:27пожаловаться #10

2021 October 14

Вячеслав in Data Engineers

А как это связано с изначальным запросом?
Ну, там DSL для правил используется, ок, как тут и ответили сразу несколько человек.

источник

00:27пожаловаться #11

KGM in Data Engineers

Всем привет!

Какие есть best-practice для self-join? Работает, не падает, но очень долго.

Стэк:
- Spark 2.4.4
- Hadoop 2.7

Датафрейм parquet 700 GB и примерно 350 млн строк

val df = spark.read.parquet(…)
val df2 = df.select(‘column as “column2”, ‘username_col as “username_col2”)

df.join(df2, df(“column) === df2(“column2”))

Да, возможны тут дубли

источник

11:59пожаловаться #12

Arseniy Kocharov ✔️... in Data Engineers

Чуваки, кто нибудь знает сайт, где можно руку набить решая типичные задачи на Scala spark?

источник

12:09пожаловаться #13

ИК

Иван Калининский... in Data Engineers

localhost с поднятым кластером. Извините)

источник

12:14пожаловаться #14

ММ

Максим Митяев... in Data Engineers

Что научиться поднимать, нужно ... поднимать ?

источник

12:15пожаловаться #15

Arseniy Kocharov ✔️... in Data Engineers

))0)0

источник

12:15пожаловаться #16

ИК

Иван Калининский... in Data Engineers

Смотрю на код, не понимаю, зачем join? column и column2 - одна и та же колонка!

источник

12:16пожаловаться #17

Artem Aliev in Data Engineers

видимо должно быть 2 колонки ;). главный BP для всех graph traversal и когдп собрался долго мучать одну таблицу: df.cache()

источник

13:41пожаловаться #18

ИК

Иван Калининский... in Data Engineers

df.withColumn(“column2”, ‘column).withColumn(“username_col2”, ‘username_col) - вот плюс 2 колонки, ничего джойнить не надо!

Так это тут всего 700Гб в кеш из сорса пойдёт, а если будет в сто раз больше? И это ещё нераспакованный объём

источник

14:12пожаловаться #19

KONAN SILVAIN in Data Engineers

hello

источник

14:23пожаловаться #20