Телеграмм чат группы hadoopusers страница 2606

да блин на весь стек есть helm-чарты

и спарк
и хдфс+хайв+метастор
и зеппелин с суперсетом

и даже персистентность там включается

просто ставится это какой то разножопицей, и вечно всплывают мелкие косяки. например:
спарк не тянет паркет из хдфс - либы не хватает какой то. не беда доставить, но это ведь до первого перезапуска.

или - в хдфс не получить рутовые права, а без них юзера не сделать

> на весь стек есть helm-чарты

в смысле можно нагуглить чьи-то поделки и заготовки, или проекты поддерживают свои чарты?

источник

15:58пожаловаться #3

PK

Pavel Kashchenko in Data Engineers

Старый Хрыч

😐я вот сейчас читаю, как делать cuda+openshift+airflow+spark

А где такое? Тож хочу почитать)

источник

18:24пожаловаться #4

А

Алексей in Data Engineers

Andrey Smirnov

так там же просто условия больше/меньше, просто по индексу бегают

https://docs.oracle.com/en/database/oracle/oracle-database/19/tgsql/joins.html#GUID-24F34188-110F-4245-9DE7-43954092AFE0
В oracle есть band join, но судя по описанию он ничем не отличается от merge join

Oracle Help Center

SQL Tuning Guide

Oracle Database provides several optimizations for joining row sets.

источник

19:02пожаловаться #5

Y

Yestay in Data Engineers

Можно бесплатно попробовать силы в Spark. может кому пригодится

#FREE #CCA175 #dumps on #Udemy. Course Rating : 4.6/5
COUPON CODE:
https://www.udemy.com/course/cca-175-spark-and-hadoop-developer-practice-tests-a/?couponCode=A618B6D30FCD8921E21B
FREE Spark and Hadoop Developer Certification dumps

Udemy

CCA 175 Spark and Hadoop Developer - Dumps [ Updated 2020 ]

( CCA175 ) Real time practice questions/ dumps for CCA 175 Spark and Hadoop Developer Certification Exam.

источник

19:39пожаловаться #6

AS

Andrey Smirnov in Data Engineers

Yestay

Можно бесплатно попробовать силы в Spark. может кому пригодится

#FREE #CCA175 #dumps on #Udemy. Course Rating : 4.6/5
COUPON CODE:
https://www.udemy.com/course/cca-175-spark-and-hadoop-developer-practice-tests-a/?couponCode=A618B6D30FCD8921E21B
FREE Spark and Hadoop Developer Certification dumps

Udemy

CCA 175 Spark and Hadoop Developer - Dumps [ Updated 2020 ]

( CCA175 ) Real time practice questions/ dumps for CCA 175 Spark and Hadoop Developer Certification Exam.

спасибо

источник

20:52пожаловаться #7

N

Nikolay in Data Engineers

Andrey Smirnov

https://rahulpedduri.github.io/2017/10/23/time-range-join.html

What I’ve learnt

Time range join in spark

A blog about experiences from a geek.

спасибо за ссылку. Жаль, что там рассмативается не общий случай, а вариант, когда у нас есть соединения по id, а дальше уже фильтрация по условаию x between y_start and y_end. Проверил на спраке 2.4.5 и 3.0 они это уже сами делать могут. Интересно что можно придумать, когда у нас только услование вида x between y_start and y_end.

источник

22:40пожаловаться #8

А

Алексей in Data Engineers

Nikolay

спасибо за ссылку. Жаль, что там рассмативается не общий случай, а вариант, когда у нас есть соединения по id, а дальше уже фильтрация по условаию x between y_start and y_end. Проверил на спраке 2.4.5 и 3.0 они это уже сами делать могут. Интересно что можно придумать, когда у нас только услование вида x between y_start and y_end.

https://docs.databricks.com/delta/join-performance/range-join.html
В доке брикса вариант join через bin без доп соединения

Databricks

Range Join optimization — Databricks Documentation

Learn how Delta Lake on Databricks optimizes join performance when two relations are joined using a point in interval or interval overlap condition.

источник

23:14пожаловаться #9

AS

Andrey Smirnov in Data Engineers

Алексей

https://docs.databricks.com/delta/join-performance/range-join.html
В доке брикса вариант join через bin без доп соединения

Databricks

Range Join optimization — Databricks Documentation

Learn how Delta Lake on Databricks optimizes join performance when two relations are joined using a point in interval or interval overlap condition.

но это их рантайм, не опенсоурс?

источник

23:44пожаловаться #10

2020 August 04

R

Renarde in Data Engineers

Andrey Smirnov

но это их рантайм, не опенсоурс?

да, опенсурсные хинты все тут прописаны:

https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-hints.html#partitioning-hints

источник

00:17пожаловаться #11

2020 August 05

SS

Sergey Sheremeta in Data Engineers

коллеги, подскажите, пожалуйста:
как бы мне Spark-ом получить совокупный размер всех файлов в конкретной партиции таблицы?

источник

02:02пожаловаться #12

M

Mi in Data Engineers

Sergey Sheremeta

коллеги, подскажите, пожалуйста:
как бы мне Spark-ом получить совокупный размер всех файлов в конкретной партиции таблицы?

я думаю стоит взять путь этой партиции и смотреть напрямую средствами файловой системы, не помню чтобы можно было в dataframe/dataset api собрать размеры файлов

источник

11:09пожаловаться #13

SS

Sergey Sheremeta in Data Engineers

в Databricks Delta есть SQL-команда для сбора таких метаданных:
https://docs.databricks.com/spark/latest/spark-sql/language-manual/describe-table.html#describe-partition

DESCRIBE [EXTENDED] [db_name.]table_name PARTITION partition_spec

жалко, что ее выпилили в OSS версии ((

Databricks

Describe Table — Databricks Documentation

Learn how to use the DESCRIBE TABLE syntax of the Apache Spark and Delta Lake SQL languages in Databricks.

источник

11:29пожаловаться #14

ME

Max Efremov in Data Engineers

Mi

я думаю стоит взять путь этой партиции и смотреть напрямую средствами файловой системы, не помню чтобы можно было в dataframe/dataset api собрать размеры файлов

А датафрейм и не знает о размере данных, которые потом запишутся на диск. Там могут и в csv записать, могут и в паркет. При считывании тоже самое, ридер считал и всё.

источник

11:31пожаловаться #15

M

Mi in Data Engineers

Max Efremov

А датафрейм и не знает о размере данных, которые потом запишутся на диск. Там могут и в csv записать, могут и в паркет. При считывании тоже самое, ридер считал и всё.

так не запишутся, а прочитались

источник

11:31пожаловаться #16

M

Mi in Data Engineers

ну и пути к файлам он почему-то знает, а их размеры не знает

источник

11:32пожаловаться #17

ME

Max Efremov in Data Engineers

Mi

ну и пути к файлам он почему-то знает, а их размеры не знает

Не интересно)

источник

11:34пожаловаться #18

SS

Sergey Sheremeta in Data Engineers

коллеги, привет! подскажите...
<data_vault_enabled>
у меня в потоковом режиме прилетают "состояния" некой сущности - например, сущность "абонент". со всеми его атрибутами.
а я хочу разложить в DWH эти "состояния" на "события"

например, сначала прилетело состояние:
id, name, sex, married
1, Petrova, female, 0

потом:
id, name, sex, married
1, Petrova-Vodkina, female, 1

хочу иметь возможность отследить все изменения для абонентов по времени.
мне ведь путь в DataVault?
</data_vault_enabled>

источник

13:12пожаловаться #19

DZ

Dmitry Zuev in Data Engineers

путь в scd

источник

13:41пожаловаться #20