Телеграмм чат группы hadoopusers страница 1777

Да банальные операции : поток на входе в кафке, минимум трансформации и впихнуть в hbase/elasticsearch/cassandra

И тут либо внутренний буфер во флинк на write, или спарком сразу нужного размера батч из кафки берёшь

источник

08:28пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

Alex

Да банальные операции : поток на входе в кафке, минимум трансформации и впихнуть в hbase/elasticsearch/cassandra

И тут либо внутренний буфер во флинк на write, или спарком сразу нужного размера батч из кафки берёшь

ну я вел к тому, что эти два инстурмента заменяемые при некоторых юзкейсах
а проблем распределенных систем и распределения ресурсов и там и там не решить

источник

08:29пожаловаться #7

DM

Daniel Matveev in Data Engineers

> в сообщениях картиночки размера не помещающиеся на одну машину но тебе хочется с ними делать операции сразу на нескольких в силу особенностей операций

не понял

источник

08:29пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

Daniel Matveev

> в сообщениях картиночки размера не помещающиеся на одну машину но тебе хочется с ними делать операции сразу на нескольких в силу особенностей операций

не понял

ну у тя картинка весит 40 гигов (и таких мног); а ты хочешь что-то долгое сделать
тут честный стриминг не сработает - тебе тут батч какойто хочется

источник

08:30пожаловаться #9

GP

Grigory Pomadchin in Data Engineers

ну конечно сработает

источник

08:30пожаловаться #10

GP

Grigory Pomadchin in Data Engineers

sticker.webp

(3.07 Кб)

источник

08:30пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

но это опять же вопрос удобства и как пользоваться

источник

08:30пожаловаться #12

DM

Daniel Matveev in Data Engineers

ничем в данном случае батч отличаться от стрима не будет

источник

08:30пожаловаться #13

A

Alex in Data Engineers

Grigory Pomadchin

ну я вел к тому, что эти два инстурмента заменяемые при некоторых юзкейсах
а проблем распределенных систем и распределения ресурсов и там и там не решить

Да, в определённом роде заменяемы, но есть кейсы где каждый лучше показывает себя

Поэтому не понимаю спора :)

источник

08:31пожаловаться #14

DM

Daniel Matveev in Data Engineers

ну только если у тебя тачка не на 400ГБ и то хз как параллелить картинки таких размеров

источник

08:31пожаловаться #15

S

Stanislav in Data Engineers

Alex

Да банальные операции : поток на входе в кафке, минимум трансформации и впихнуть в hbase/elasticsearch/cassandra

И тут либо внутренний буфер во флинк на write, или спарком сразу нужного размера батч из кафки берёшь

именно
самое классное начинается, когда поток по настоящему большой
а если еще надо бы и с начала топика прочитать
да еще и успевать за ретеншном в кафке

источник

08:31пожаловаться #16

S

Stanislav in Data Engineers

Grigory Pomadchin

ну у тя картинка весит 40 гигов (и таких мног); а ты хочешь что-то долгое сделать
тут честный стриминг не сработает - тебе тут батч какойто хочется

передача 40 гиговых картинок кафкой

источник

08:31пожаловаться #17

GP

Grigory Pomadchin in Data Engineers

Daniel Matveev