Телеграмм чат группы hadoopusers страница 3071

расскжите пожалуйста, а для чего нужен apache beam?

15:59пожаловаться #1

RZ

Rafa Zubrabubra in Data Engineers

Ruslan515 Y

Всем привет. Прошу подсказать как из Cassandra считать всю таблицу(порядка 500К записей). В данный момент получается только 10К записей считать, если увеличить это число то возникает ошибка

понять бы чем вы пытаетесь прочесть

16:00пожаловаться #2

АР

я прост посмотрел документацию, и меня немного испугало апи:
https://beam.apache.org/documentation/programming-guide/#pipeline-io

Apache Beam is an open source, unified model and set of language-specific SDKs for defining and executing data processing workflows, and also data ingestion and integration flows, supporting Enterprise Integration Patterns (EIPs) and Domain Specific Languages (DSLs). Dataflow pipelines simplify the mechanics of large-scale batch and streaming data processing and can run on a number of runtimes like Apache Flink, Apache Spark, and Google Cloud Dataflow (a cloud service). Beam also brings DSL in different languages, allowing users to easily implement their data integration processes.

Beam Programming Guide

16:00пожаловаться #3

RY

Ruslan515 Y in Data Engineers

Rafa Zubrabubra

понять бы чем вы пытаетесь прочесть

python. cassandra-driver

16:00пожаловаться #4

Oℕ

Oleg ℕizhnik in Data Engineers

я прост посмотрел документацию, и меня немного испугало апи:
https://beam.apache.org/documentation/programming-guide/#pipeline-io

Apache Beam is an open source, unified model and set of language-specific SDKs for defining and executing data processing workflows, and also data ingestion and integration flows, supporting Enterprise Integration Patterns (EIPs) and Domain Specific Languages (DSLs). Dataflow pipelines simplify the mechanics of large-scale batch and streaming data processing and can run on a number of runtimes like Apache Flink, Apache Spark, and Google Cloud Dataflow (a cloud service). Beam also brings DSL in different languages, allowing users to easily implement their data integration processes.

Beam Programming Guide

https://t.me/hadoopusers/72348

Anton Zadorozhniy in Data Engineers

https://spotify.github.io/scio/

16:01пожаловаться #5

A

расскжите пожалуйста, а для чего нужен apache beam?

попытка предоставить единый api для разных раннеров

в теории можешь запускать один и тот же код на системе которая больше тебе подходит (stream, batch, и тд)

является оффициальным sdk для google dataflow
для спарка раннер совсем печальный

https://t.me/hadoopusers/72348

16:02пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

Oleg ℕizhnik

Anton Zadorozhniy in Data Engineers

https://spotify.github.io/scio/

Т.е бим нужен для Флинка?

16:02пожаловаться #7

Oℕ

Oleg ℕizhnik in Data Engineers

Grigory Pomadchin

Т.е бим нужен для Флинка?

обязательно

16:02пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

💯

16:02пожаловаться #9

A

сцио это попытка натянуть spark/scala апи на beam и java подходы

16:03пожаловаться #10

АР

https://t.me/hadoopusers/72348

Oleg ℕizhnik

Anton Zadorozhniy in Data Engineers

https://spotify.github.io/scio/

хм, а тут уже получше

16:03пожаловаться #11

АР

Alex

попытка предоставить единый api для разных раннеров

в теории можешь запускать один и тот же код на системе которая больше тебе подходит (stream, batch, и тд)

является оффициальным sdk для google dataflow
для спарка раннер совсем печальный

понял, спасибо!

16:04пожаловаться #12

A

https://beam.apache.org/documentation/runners/capability-matrix/

Apache Beam is an open source, unified model and set of language-specific SDKs for defining and executing data processing workflows, and also data ingestion and integration flows, supporting Enterprise Integration Patterns (EIPs) and Domain Specific Languages (DSLs). Dataflow pipelines simplify the mechanics of large-scale batch and streaming data processing and can run on a number of runtimes like Apache Flink, Apache Spark, and Google Cloud Dataflow (a cloud service). Beam also brings DSL in different languages, allowing users to easily implement their data integration processes.

Apache Beam Capability Matrix

16:04пожаловаться #13

АР

https://beam.apache.org/documentation/runners/capability-matrix/

Alex

Apache Beam is an open source, unified model and set of language-specific SDKs for defining and executing data processing workflows, and also data ingestion and integration flows, supporting Enterprise Integration Patterns (EIPs) and Domain Specific Languages (DSLs). Dataflow pipelines simplify the mechanics of large-scale batch and streaming data processing and can run on a number of runtimes like Apache Flink, Apache Spark, and Google Cloud Dataflow (a cloud service). Beam also brings DSL in different languages, allowing users to easily implement their data integration processes.

Apache Beam Capability Matrix

большая табличка, так сказать

16:04пожаловаться #14

A

Building a better and faster Beam Samza runner

большая табличка, так сказать

https://engineering.linkedin.com/blog/2020/building-a-better-and-faster-beam-samza-runner

в линкеде не самсе гоняют

алтеч писали что на jstorm/flink/galaxy(свой внутренний фреймворк) используют

Co-authors: Yixing Zhang, Bingfeng Xia, Ke Wu, and Xinyu Liu

16:07пожаловаться #15

A

хм, а тут уже получше

scio разработана spotify как более удобный и для них привычный spark/scala интерфейс для dataflow
позже когда dataflow объявил своим sdk beam, то они обновлили в сцио бекенд на бим

если работаете со скалой, то сцио будет более приятным
у самого бима много низкоуровневых вещей

если делаете какой генератор/трансформатор из ямла, то апи бима удобней, за счёт того что 1 метод apply без всяких map/reduce/groupby

16:10пожаловаться #16

A

главное сунуть правильный PTransform =)

16:10пожаловаться #17

АР

крутотенюшка

16:10пожаловаться #18

АР

Alex

scio разработана spotify как более удобный и для них привычный spark/scala интерфейс для dataflow
позже когда dataflow объявил своим sdk beam, то они обновлили в сцио бекенд на бим

если работаете со скалой, то сцио будет более приятным
у самого бима много низкоуровневых вещей

если делаете какой генератор/трансформатор из ямла, то апи бима удобней, за счёт того что 1 метод apply без всяких map/reduce/groupby

понял, ещё раз спасибо огромное!

16:10пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

дяденьки, дратути!
сказите, где взять исходники для сборок хадуп-макулатуры под Хортонворкс?