Size: a a a

2019 November 20

N

Nikita Blagodarnyy in Data Engineers
Старый Хрыч
ты про ораклбигдата ?
12с это версия Oracle DB.
источник

СХ

Старый Хрыч in Data Engineers
Nikita Blagodarnyy
12с это версия Oracle DB.
у меня был оракл 12с, но колоночным бил оракл бигдата
источник

СХ

Старый Хрыч in Data Engineers
12с релиз2 чтот там
источник

N

Nikita Blagodarnyy in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
Я так понимаю, про это речь.
источник

РА

Рамиль Ахмадеев in Data Engineers
да
источник

ME

Max Efremov in Data Engineers
O. Petr
больше чем 2 сессии не посчитает по условию )
 .withColumn("session_number", lag(col("is_new_session"), default=0).over(previous_window) + col("is_new_session"))
м? Не понял про 2 сессии
источник

ME

Max Efremov in Data Engineers
1 и 0 это просто признак, дальше идёт нарастающая сумма в другой колонке
источник

ME

Max Efremov in Data Engineers
ой, там опечатка моя, кажись
источник

РА

Рамиль Ахмадеев in Data Engineers
Старый Хрыч
ты про ораклбигдата ?
с этим то как раз все понятно, там обычный CDH стоит
источник

ME

Max Efremov in Data Engineers
O. Petr
больше чем 2 сессии не посчитает по условию )
 .withColumn("session_number", lag(col("is_new_session"), default=0).over(previous_window) + col("is_new_session"))
а, да, косяк. над подумать, как исправить
источник

VE

Vladimir E. in Data Engineers
Всем привет, а насколько часто встречаются ситуации когда после ingesting до landing zone у компании не предусмотрено создание hive/glue метаданных?
И если метаданных нет, то я так понимаю дальнейший ETL (spark?) читает данные прямо с хранилища и уже сует их в следующую зону с hive таблицами?
источник

VE

Vladimir E. in Data Engineers
Ну и в целом, какие существуют best practices для landing zone, касаемо метаданных, много кто с этим заморачивается?
источник

L

Laines in Data Engineers
Привет всем, можете посоветовать статьи или что-то где можно было бы разобраться s3 и спарком, как они взаимодействуют, как Hadoop и с3...
Как идёт вычитка и запись в файл
источник

T

T in Data Engineers
Laines
Привет всем, можете посоветовать статьи или что-то где можно было бы разобраться s3 и спарком, как они взаимодействуют, как Hadoop и с3...
Как идёт вычитка и запись в файл
на сколько глубоко хотите разобраться?
источник

L

Laines in Data Engineers
Так чтобы потом можно было работать с этим )
источник

T

T in Data Engineers
Laines
Так чтобы потом можно было работать с этим )
ну работать можно и без знаний load(“s3://blah/blah/mybigdata.parquet”)
источник

L

Laines in Data Engineers
Надо немного глубже)
источник

AZ

Anton Zadorozhniy in Data Engineers
Vladimir E.
Всем привет, а насколько часто встречаются ситуации когда после ingesting до landing zone у компании не предусмотрено создание hive/glue метаданных?
И если метаданных нет, то я так понимаю дальнейший ETL (spark?) читает данные прямо с хранилища и уже сует их в следующую зону с hive таблицами?
Такое бывает иногда (чтобы от хайва не зависеть, удобно), но метаданные описывающие эти датасеты все равно есть, могут быть в конфигах Кафка коннекта, или в планировщике
источник

AZ

Anton Zadorozhniy in Data Engineers
Laines
Надо немного глубже)
Вы конкретный вопрос попробуйте задать
источник