Size: a a a

2020 December 18

АР

Андрей Романов... in Data Engineers
расскжите пожалуйста, а для чего нужен apache beam?
источник

RZ

Rafa Zubrabubra in Data Engineers
Ruslan515 Y
Всем привет. Прошу подсказать как из  Cassandra считать всю таблицу(порядка 500К записей). В данный момент получается только 10К записей считать, если увеличить это число то возникает ошибка
понять бы чем вы пытаетесь прочесть
источник

АР

Андрей Романов... in Data Engineers
я прост посмотрел документацию, и меня немного испугало апи:
https://beam.apache.org/documentation/programming-guide/#pipeline-io
источник

RY

Ruslan515 Y in Data Engineers
Rafa Zubrabubra
понять бы чем вы пытаетесь прочесть
python. cassandra-driver
источник

Oℕ

Oleg ℕizhnik in Data Engineers
источник

A

Alex in Data Engineers
Андрей Романов
расскжите пожалуйста, а для чего нужен apache beam?
попытка предоставить единый api для разных раннеров

в теории можешь запускать один и тот же код на системе которая больше тебе подходит (stream, batch, и тд)

является оффициальным sdk для google dataflow
для спарка раннер совсем печальный
источник

GP

Grigory Pomadchin in Data Engineers
Т.е бим нужен для Флинка?
источник

Oℕ

Oleg ℕizhnik in Data Engineers
Grigory Pomadchin
Т.е бим нужен для Флинка?
обязательно
источник

GP

Grigory Pomadchin in Data Engineers
💯
источник

A

Alex in Data Engineers
сцио это попытка натянуть spark/scala апи на beam и java подходы
источник

АР

Андрей Романов... in Data Engineers
хм, а тут уже получше
источник

АР

Андрей Романов... in Data Engineers
Alex
попытка предоставить единый api для разных раннеров

в теории можешь запускать один и тот же код на системе которая больше тебе подходит (stream, batch, и тд)

является оффициальным sdk для google dataflow
для спарка раннер совсем печальный
понял, спасибо!
источник

A

Alex in Data Engineers
источник

АР

Андрей Романов... in Data Engineers
большая табличка, так сказать
источник

A

Alex in Data Engineers
Андрей Романов
большая табличка, так сказать
https://engineering.linkedin.com/blog/2020/building-a-better-and-faster-beam-samza-runner

в линкеде не самсе гоняют

алтеч писали что на jstorm/flink/galaxy(свой внутренний фреймворк) используют
источник

A

Alex in Data Engineers
Андрей Романов
хм, а тут уже получше
scio разработана spotify как более удобный и для них привычный spark/scala интерфейс для dataflow
позже когда dataflow объявил своим sdk beam, то они обновлили в сцио бекенд на бим

если работаете со скалой, то сцио будет более приятным
у самого бима много низкоуровневых вещей

если делаете какой генератор/трансформатор из ямла, то апи бима удобней, за счёт того что 1 метод apply без всяких map/reduce/groupby
источник

A

Alex in Data Engineers
главное сунуть правильный PTransform =)
источник

АР

Андрей Романов... in Data Engineers
крутотенюшка
источник

АР

Андрей Романов... in Data Engineers
Alex
scio разработана spotify как более удобный и для них привычный spark/scala интерфейс для dataflow
позже когда dataflow объявил своим sdk beam, то они обновлили в сцио бекенд на бим

если работаете со скалой, то сцио будет более приятным
у самого бима много низкоуровневых вещей

если делаете какой генератор/трансформатор из ямла, то апи бима удобней, за счёт того что 1 метод apply без всяких map/reduce/groupby
понял, ещё раз спасибо огромное!
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, дратути!
сказите, где взять исходники для сборок хадуп-макулатуры под Хортонворкс?
источник