Size: a a a

2020 October 19

AV

Alexandr Vladimirovi... in Data Engineers
Андрей Жуков
а нужна ли она ему?
нужна конечно
источник

АЖ

Андрей Жуков... in Data Engineers
Alexandr Vladimirovich
нужна конечно
точно?
источник

АЖ

Андрей Жуков... in Data Engineers
ну просто часто бизнес не понимает ничего в этих latency
источник

АЖ

Андрей Жуков... in Data Engineers
и только архи занимаются аутофелляцией, глядя на развесистые пайплайны без задержек
источник

АЖ

Андрей Жуков... in Data Engineers
А у бизнеса хотелка, чтобы в 9:00 был готов отчет 🙂
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
А у бизнеса хотелка, чтобы в 9:00 был готов отчет 🙂
к сожалению я видел не одного клиента где словосочетание real time значило "запрос выполняется меньше 15 минут" 😞
источник

AZ

Anton Zadorozhniy in Data Engineers
Рамиль Ахмадеев
если в спарке broadcast стримы не подвезли, то для стриминга по прежнему нет ни чего лучше Flink’а
у флинка есть еще куча преимуществ, но там порог входа серьезно выше, особенно не для обычных разработчиков, а для дата инженеров которые до этого писали SQL и pyspark; поэтому я обычно рекомендую написать сначала на спарке, а если будет сильно жать - переписать
источник

MB

Mikhail Butalin in Data Engineers
Alex
@Michaelikus официально нету, на практике некоторые запросы могут подтормаживать

схема у хайва в базе данных печальна и во многих местах где нужны индексы их нельзя построить =(
поэтому при большом количестве партиций может быть не очень хорошо

https://www.slideshare.net/Hadoop_Summit/oraclestore-a-highly-performant-rawstore-implementation-for-hive-metastore

там есть слайды с замерами
а почему нельзя построить индексы?
источник

MB

Mikhail Butalin in Data Engineers
а, сорян, увидел.. нельзя от слова не имеет смысла... но я пару индексов накинул у себя и уже база оживилась существенно
источник

АШ

Арсен Шакирзянов... in Data Engineers
Всем привет. Мы тут заопенсорсили спарк обертку над hyperscan (сишная либа для матчинга большого кол-ва регулярок) - https://github.com/napalabs-ru/spark-hscan . Пока проверяли только на spark 2.3.2. На продовых данных получили ускорение производительности в 2 раза, относительно обычного like. Может кому-нибудь будет интересно.
источник

UD

Uncel Duk in Data Engineers
Арсен Шакирзянов
Всем привет. Мы тут заопенсорсили спарк обертку над hyperscan (сишная либа для матчинга большого кол-ва регулярок) - https://github.com/napalabs-ru/spark-hscan . Пока проверяли только на spark 2.3.2. На продовых данных получили ускорение производительности в 2 раза, относительно обычного like. Может кому-нибудь будет интересно.
А сильно отличается от либы gliwka ?
источник

АШ

Арсен Шакирзянов... in Data Engineers
она используется внутри
источник

AA

Anton Alekseev in Data Engineers
Всем привет.
Имеется стек: aws s3 для инпута батч процессинга, aws lambda конфиги формируют и стартуют спарк кластер на aws emr, кластер забирает данные с с3, колдует и результаты процессинга и тестов заливается в aws redshift.
Накидайте, пожалуйста, баззвордов аналогов в Azure, хочу погуглить на чем такой стек собрать, чтобы максимально безболезненно переехать, и какие будут проблемы и профит.
источник

AZ

Anton Zadorozhniy in Data Engineers
Anton Alekseev
Всем привет.
Имеется стек: aws s3 для инпута батч процессинга, aws lambda конфиги формируют и стартуют спарк кластер на aws emr, кластер забирает данные с с3, колдует и результаты процессинга и тестов заливается в aws redshift.
Накидайте, пожалуйста, баззвордов аналогов в Azure, хочу погуглить на чем такой стек собрать, чтобы максимально безболезненно переехать, и какие будут проблемы и профит.
Azure Data Lake Storage, Azure Data Factory (это скорее конкурент AWS Glue, но получше), HDInsight, Azure Synapse
источник

AA

Anton Alekseev in Data Engineers
Anton Zadorozhniy
Azure Data Lake Storage, Azure Data Factory (это скорее конкурент AWS Glue, но получше), HDInsight, Azure Synapse
Спасибо!👍 Убёг сравнивать😊
источник

AZ

Anton Zadorozhniy in Data Engineers
самый простой способ наверное перенести текущий ворклоад на HDInsight или Databricks
источник

AE

Alexey Evdokimov in Data Engineers
нтерестно сколько такой переезд может занять сейчас. три года назад (только в обратную сторону) я потратил где-то месяца четыре
источник

АЖ

Андрей Жуков... in Data Engineers
Alexey Evdokimov
нтерестно сколько такой переезд может занять сейчас. три года назад (только в обратную сторону) я потратил где-то месяца четыре
там было не так завязано на плюшки азура 🙂
источник

AE

Alexey Evdokimov in Data Engineers
ежели бы у нас тогда использовался голый спарк без ничего, как щас, оно было бы проще. а то любая жёсткая зависимость от облачного компонента в стеке — это боль...
источник

TT

Tsh Tsh in Data Engineers
Alexey Evdokimov
ежели бы у нас тогда использовался голый спарк без ничего, как щас, оно было бы проще. а то любая жёсткая зависимость от облачного компонента в стеке — это боль...
Стало хуже
Пилить - не перепилить
источник