Size: a a a

2020 August 03

AS

Andrey Smirnov in Data Engineers
Алексей
Bin как-то понятней выглядит.  Интересно какой алгоритм в классических бд
так там же просто условия больше/меньше, просто по индексу бегают
источник

А

Алексей in Data Engineers
Andrey Smirnov
так там же просто условия больше/меньше, просто по индексу бегают
Если индекс, то вероятно nested loops, интересно, если не будет его. Надо попробовать в oracle будет
источник

AZ

Anton Zadorozhniy in Data Engineers
Ivan
да блин на весь стек есть helm-чарты

и спарк
и хдфс+хайв+метастор
и зеппелин с суперсетом

и даже персистентность там включается

просто ставится это какой то разножопицей, и вечно всплывают мелкие косяки. например:
спарк не тянет паркет из хдфс - либы не хватает какой то. не беда доставить, но это ведь до первого перезапуска.

или - в хдфс не получить рутовые права, а без них юзера не сделать
> на весь стек есть helm-чарты

в смысле можно нагуглить чьи-то поделки и заготовки, или проекты поддерживают свои чарты?
источник

PK

Pavel Kashchenko in Data Engineers
Старый Хрыч
😐я вот сейчас читаю, как делать cuda+openshift+airflow+spark
А где такое? Тож хочу почитать)
источник

А

Алексей in Data Engineers
Andrey Smirnov
так там же просто условия больше/меньше, просто по индексу бегают
https://docs.oracle.com/en/database/oracle/oracle-database/19/tgsql/joins.html#GUID-24F34188-110F-4245-9DE7-43954092AFE0
В oracle есть band join, но судя по описанию он ничем не отличается от merge join
источник

Y

Yestay in Data Engineers
Можно бесплатно попробовать силы в Spark. может кому пригодится

#FREE #CCA175 #dumps on #Udemy. Course Rating : 4.6/5
COUPON CODE:
https://www.udemy.com/course/cca-175-spark-and-hadoop-developer-practice-tests-a/?couponCode=A618B6D30FCD8921E21B
FREE Spark and Hadoop Developer Certification dumps
источник

AS

Andrey Smirnov in Data Engineers
Yestay
Можно бесплатно попробовать силы в Spark. может кому пригодится

#FREE #CCA175 #dumps on #Udemy. Course Rating : 4.6/5
COUPON CODE:
https://www.udemy.com/course/cca-175-spark-and-hadoop-developer-practice-tests-a/?couponCode=A618B6D30FCD8921E21B
FREE Spark and Hadoop Developer Certification dumps
спасибо
источник

N

Nikolay in Data Engineers
спасибо за ссылку. Жаль, что там рассмативается не общий случай, а вариант, когда у нас есть соединения по id, а дальше уже фильтрация по условаию x between y_start and y_end. Проверил на спраке 2.4.5 и 3.0 они это уже сами делать могут. Интересно что можно придумать, когда у нас только услование вида x between y_start and y_end.
источник

А

Алексей in Data Engineers
Nikolay
спасибо за ссылку. Жаль, что там рассмативается не общий случай, а вариант, когда у нас есть соединения по id, а дальше уже фильтрация по условаию x between y_start and y_end. Проверил на спраке 2.4.5 и 3.0 они это уже сами делать могут. Интересно что можно придумать, когда у нас только услование вида x between y_start and y_end.
https://docs.databricks.com/delta/join-performance/range-join.html
В доке брикса вариант join через bin без доп соединения
источник

AS

Andrey Smirnov in Data Engineers
но это их рантайм, не опенсоурс?
источник
2020 August 04

R

Renarde in Data Engineers
Andrey Smirnov
но это их рантайм, не опенсоурс?
да, опенсурсные хинты все тут прописаны:

https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-hints.html#partitioning-hints
источник
2020 August 05

SS

Sergey Sheremeta in Data Engineers
коллеги, подскажите, пожалуйста:
как бы мне Spark-ом получить совокупный размер всех файлов в конкретной партиции таблицы?
источник

M

Mi in Data Engineers
Sergey Sheremeta
коллеги, подскажите, пожалуйста:
как бы мне Spark-ом получить совокупный размер всех файлов в конкретной партиции таблицы?
я думаю стоит взять путь этой партиции и смотреть напрямую средствами файловой системы, не помню чтобы можно было в dataframe/dataset api собрать размеры файлов
источник

SS

Sergey Sheremeta in Data Engineers
в Databricks Delta есть SQL-команда для сбора таких метаданных:
https://docs.databricks.com/spark/latest/spark-sql/language-manual/describe-table.html#describe-partition

DESCRIBE [EXTENDED] [db_name.]table_name PARTITION partition_spec

жалко, что ее выпилили в OSS версии ((
источник

ME

Max Efremov in Data Engineers
Mi
я думаю стоит взять путь этой партиции и смотреть напрямую средствами файловой системы, не помню чтобы можно было в dataframe/dataset api собрать размеры файлов
А датафрейм и не знает о размере данных, которые потом запишутся на диск. Там могут и в csv записать, могут и в паркет. При считывании тоже самое, ридер считал и всё.
источник

M

Mi in Data Engineers
Max Efremov
А датафрейм и не знает о размере данных, которые потом запишутся на диск. Там могут и в csv записать, могут и в паркет. При считывании тоже самое, ридер считал и всё.
так не запишутся, а прочитались
источник

M

Mi in Data Engineers
ну и пути к файлам он почему-то знает, а их размеры не знает
источник

ME

Max Efremov in Data Engineers
Mi
ну и пути к файлам он почему-то знает, а их размеры не знает
Не интересно)
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, привет! подскажите...
<data_vault_enabled>
у меня в потоковом режиме прилетают "состояния" некой сущности - например, сущность "абонент". со всеми его атрибутами.
а я хочу разложить в DWH эти "состояния" на "события"

например, сначала прилетело состояние:
id, name, sex, married
1,  Petrova, female, 0

потом:
id, name, sex, married
1,  Petrova-Vodkina, female, 1

хочу иметь возможность отследить все изменения для абонентов по времени.
мне ведь путь в DataVault?
</data_vault_enabled>
источник

DZ

Dmitry Zuev in Data Engineers
путь в scd
источник