Телеграмм чат группы hadoopusers страница 2883

у флинка есть еще куча преимуществ, но там порог входа серьезно выше, особенно не для обычных разработчиков, а для дата инженеров которые до этого писали SQL и pyspark; поэтому я обычно рекомендую написать сначала на спарке, а если будет сильно жать - переписать

источник

16:54пожаловаться #7

MB

Mikhail Butalin in Data Engineers

Alex

@Michaelikus официально нету, на практике некоторые запросы могут подтормаживать

схема у хайва в базе данных печальна и во многих местах где нужны индексы их нельзя построить =(
поэтому при большом количестве партиций может быть не очень хорошо

https://www.slideshare.net/Hadoop_Summit/oraclestore-a-highly-performant-rawstore-implementation-for-hive-metastore

там есть слайды с замерами

www.slideshare.net

OracleStore: A Highly Performant RawStore Implementation for Hive Met…

Today, Yahoo! uses Hive in many different spaces, from ETL pipelines to adhoc user queries. Increasingly, we are investigating the practicality of applying Hiv…

а почему нельзя построить индексы?

источник

16:55пожаловаться #8

MB

Mikhail Butalin in Data Engineers

а, сорян, увидел.. нельзя от слова не имеет смысла... но я пару индексов накинул у себя и уже база оживилась существенно

источник

16:57пожаловаться #9

АШ

Арсен Шакирзянов... in Data Engineers

Всем привет. Мы тут заопенсорсили спарк обертку над hyperscan (сишная либа для матчинга большого кол-ва регулярок) - https://github.com/napalabs-ru/spark-hscan . Пока проверяли только на spark 2.3.2. На продовых данных получили ускорение производительности в 2 раза, относительно обычного like. Может кому-нибудь будет интересно.

GitHub

napalabs-ru/spark-hscan

hyperscan wrapper for spark. Contribute to napalabs-ru/spark-hscan development by creating an account on GitHub.

источник

17:06пожаловаться #10

UD

Uncel Duk in Data Engineers

Арсен Шакирзянов

Всем привет. Мы тут заопенсорсили спарк обертку над hyperscan (сишная либа для матчинга большого кол-ва регулярок) - https://github.com/napalabs-ru/spark-hscan . Пока проверяли только на spark 2.3.2. На продовых данных получили ускорение производительности в 2 раза, относительно обычного like. Может кому-нибудь будет интересно.

GitHub

napalabs-ru/spark-hscan

hyperscan wrapper for spark. Contribute to napalabs-ru/spark-hscan development by creating an account on GitHub.

А сильно отличается от либы gliwka ?

источник

17:08пожаловаться #11

АШ

Арсен Шакирзянов... in Data Engineers

она используется внутри

источник

17:11пожаловаться #12

AA

Anton Alekseev in Data Engineers

Всем привет.
Имеется стек: aws s3 для инпута батч процессинга, aws lambda конфиги формируют и стартуют спарк кластер на aws emr, кластер забирает данные с с3, колдует и результаты процессинга и тестов заливается в aws redshift.
Накидайте, пожалуйста, баззвордов аналогов в Azure, хочу погуглить на чем такой стек собрать, чтобы максимально безболезненно переехать, и какие будут проблемы и профит.

источник

17:21пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Anton Alekseev

Всем привет.
Имеется стек: aws s3 для инпута батч процессинга, aws lambda конфиги формируют и стартуют спарк кластер на aws emr, кластер забирает данные с с3, колдует и результаты процессинга и тестов заливается в aws redshift.
Накидайте, пожалуйста, баззвордов аналогов в Azure, хочу погуглить на чем такой стек собрать, чтобы максимально безболезненно переехать, и какие будут проблемы и профит.

Azure Data Lake Storage, Azure Data Factory (это скорее конкурент AWS Glue, но получше), HDInsight, Azure Synapse

источник

17:24пожаловаться #14

AA

Anton Alekseev in Data Engineers

Anton Zadorozhniy

Azure Data Lake Storage, Azure Data Factory (это скорее конкурент AWS Glue, но получше), HDInsight, Azure Synapse

Спасибо!👍 Убёг сравнивать😊

источник

17:24пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

самый простой способ наверное перенести текущий ворклоад на HDInsight или Databricks

источник

17:25пожаловаться #16

AE

Alexey Evdokimov in Data Engineers

нтерестно сколько такой переезд может занять сейчас. три года назад (только в обратную сторону) я потратил где-то месяца четыре

источник

17:41пожаловаться #17

АЖ

Андрей Жуков... in Data Engineers

Alexey Evdokimov

нтерестно сколько такой переезд может занять сейчас. три года назад (только в обратную сторону) я потратил где-то месяца четыре

там было не так завязано на плюшки азура 🙂

источник

18:19пожаловаться #18

AE

Alexey Evdokimov in Data Engineers

ежели бы у нас тогда использовался голый спарк без ничего, как щас, оно было бы проще. а то любая жёсткая зависимость от облачного компонента в стеке — это боль...

источник

18:26пожаловаться #19

TT

Tsh Tsh in Data Engineers

Alexey Evdokimov

ежели бы у нас тогда использовался голый спарк без ничего, как щас, оно было бы проще. а то любая жёсткая зависимость от облачного компонента в стеке — это боль...

Стало хуже
Пилить - не перепилить

источник

18:29пожаловаться #20