Size: a a a

2020 October 19

А

Алексей in Data Engineers
Alex
@Michaelikus официально нету, на практике некоторые запросы могут подтормаживать

схема у хайва в базе данных печальна и во многих местах где нужны индексы их нельзя построить =(
поэтому при большом количестве партиций может быть не очень хорошо

https://www.slideshare.net/Hadoop_Summit/oraclestore-a-highly-performant-rawstore-implementation-for-hive-metastore

там есть слайды с замерами
почему нельзя построить? из-за специфичности схемы? Там же обычная бд: mysql/pg или oracle
источник

A

Alex in Data Engineers
последний раз когда я туда смотрел там было пару таблиц в которых лежали по айди параметры вида

id, type, value

в сгенерированном запросе проверялся тип и потом делался каст, следом сравнение
что-то вроде

where ((type=1 and castint(value) = 1) or ((type=1 and castint(value) = 2) or ….. ))

в место многоточия поставте 200-500 элементов
источник

AV

Alexandr Vladimirovi... in Data Engineers
Всем привет, есть вопросик по фреймворкам таким как Flink/Spark
чем они принципиально друг от друга отличаются и какой сейчас лучше всего использовать для streaming ETL?
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexandr Vladimirovich
Всем привет, есть вопросик по фреймворкам таким как Flink/Spark
чем они принципиально друг от друга отличаются и какой сейчас лучше всего использовать для streaming ETL?
если у вас совсем ничего нет и задачки начального уровня - начните со спарка, там больше сообщество и momentum; если у вас что-то уже есть и чем-то не устраивает - напишите чем, тогда вам будет проще помочь
источник

AV

Alexandr Vladimirovi... in Data Engineers
Anton Zadorozhniy
если у вас совсем ничего нет и задачки начального уровня - начните со спарка, там больше сообщество и momentum; если у вас что-то уже есть и чем-то не устраивает - напишите чем, тогда вам будет проще помочь
пока ресерчим, задачи есть, ищем правильный инструмент для этого
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexandr Vladimirovich
пока ресерчим, задачи есть, ищем правильный инструмент для этого
тогда точно спарк, с ним проще ресерчить и понять где жмет если что
источник

AV

Alexandr Vladimirovi... in Data Engineers
Anton Zadorozhniy
тогда точно спарк, с ним проще ресерчить и понять где жмет если что
А почему спарк проще ресерчить чем флинк?
источник

АЖ

Андрей Жуков... in Data Engineers
Alexandr Vladimirovich
А почему спарк проще ресерчить чем флинк?
потому что он лучше документирован и весь интернет обложен гайдами?
источник

АЖ

Андрей Жуков... in Data Engineers
хотя, наверное, китайский сегмент гайдами по флинку обложен не хуже
источник

РА

Рамиль Ахмадеев... in Data Engineers
если в спарке broadcast стримы не подвезли, то для стриминга по прежнему нет ни чего лучше Flink’а
источник

AS

Andrey Smirnov in Data Engineers
Alexandr Vladimirovich
Всем привет, есть вопросик по фреймворкам таким как Flink/Spark
чем они принципиально друг от друга отличаются и какой сейчас лучше всего использовать для streaming ETL?
зависит от ваших задач, например какая latency допустима?
источник

AV

Alexandr Vladimirovi... in Data Engineers
Рамиль Ахмадеев
если в спарке broadcast стримы не подвезли, то для стриминга по прежнему нет ни чего лучше Flink’а
а что за фича такая?
источник

AV

Alexandr Vladimirovi... in Data Engineers
Андрей Жуков
потому что он лучше документирован и весь интернет обложен гайдами?
обычно документацию и гайды читают в тот момент, когда перепробывали все)))
источник

АЖ

Андрей Жуков... in Data Engineers
Alexandr Vladimirovich
обычно документацию и гайды читают в тот момент, когда перепробывали все)))
???
источник

АЖ

Андрей Жуков... in Data Engineers
fuckup-driven architecture?
источник

AV

Alexandr Vladimirovi... in Data Engineers
ну кто доку читает сразу, сначала делаем, ломаем, потом читаем)
источник

AV

Alexandr Vladimirovi... in Data Engineers
Andrey Smirnov
зависит от ваших задач, например какая latency допустима?
думаю бизнес будет рад задержкам в пределах секунды
источник

АЖ

Андрей Жуков... in Data Engineers
Alexandr Vladimirovich
думаю бизнес будет рад задержкам в пределах секунды
а нужна ли она ему?
источник

R

Roman in Data Engineers
Alexandr Vladimirovich
ну кто доку читает сразу, сначала делаем, ломаем, потом читаем)
Думаю, что многие...
источник

РА

Рамиль Ахмадеев... in Data Engineers
Alexandr Vladimirovich
а что за фича такая?
в спарке есть broad cast таблички (доступные на всех экзекьютерах), но что бы их обновлять нужно поплясать с бубном на сколько я знаю, а во флинке есть broad cast stream такой стрим реплицируется целиком на все экзекьютеры и понятное дело обновляется в риалтайме из коробки.
источник