Size: a a a

2019 November 19

GP

Grigory Pomadchin in Data Engineers
как ты это на флинке делать будешь - не знаю)
источник

GP

Grigory Pomadchin in Data Engineers
а так это уже вопрос другой - уверен можно
источник

GP

Grigory Pomadchin in Data Engineers
удобство - одинакове при знании обоих апи
источник

GP

Grigory Pomadchin in Data Engineers
если у тебя батч процессинг на спарке есть - то очевидно смысла тащить флинк не особо много
источник

GP

Grigory Pomadchin in Data Engineers
если нет спарка - пробуй флинк, почему нет - удобно же и никаких проблем спарка нет, да?
источник

A

Alex in Data Engineers
Да банальные операции : поток на входе в кафке, минимум трансформации и впихнуть в hbase/elasticsearch/cassandra

И тут либо внутренний буфер во флинк на write, или спарком сразу нужного размера батч из кафки берёшь
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Да банальные операции : поток на входе в кафке, минимум трансформации и впихнуть в hbase/elasticsearch/cassandra

И тут либо внутренний буфер во флинк на write, или спарком сразу нужного размера батч из кафки берёшь
ну я вел к тому, что эти два инстурмента заменяемые при некоторых юзкейсах
а проблем распределенных систем и распределения ресурсов и там и там не решить
источник

DM

Daniel Matveev in Data Engineers
> в сообщениях картиночки размера не помещающиеся на одну машину но тебе хочется с ними делать операции сразу на нескольких в силу особенностей операций

не понял
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
> в сообщениях картиночки размера не помещающиеся на одну машину но тебе хочется с ними делать операции сразу на нескольких в силу особенностей операций

не понял
ну у тя картинка весит 40 гигов (и таких мног); а ты хочешь что-то долгое сделать
тут честный стриминг не сработает - тебе тут батч какойто хочется
источник

GP

Grigory Pomadchin in Data Engineers
ну конечно сработает
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
но это опять же вопрос удобства и как пользоваться
источник

DM

Daniel Matveev in Data Engineers
ничем в данном случае батч отличаться от стрима не будет
источник

A

Alex in Data Engineers
Grigory Pomadchin
ну я вел к тому, что эти два инстурмента заменяемые при некоторых юзкейсах
а проблем распределенных систем и распределения ресурсов и там и там не решить
Да, в определённом роде заменяемы, но есть кейсы где каждый лучше показывает себя

Поэтому не понимаю спора :)
источник

DM

Daniel Matveev in Data Engineers
ну только если у тебя тачка не на 400ГБ и то хз как параллелить картинки таких размеров
источник

S

Stanislav in Data Engineers
Alex
Да банальные операции : поток на входе в кафке, минимум трансформации и впихнуть в hbase/elasticsearch/cassandra

И тут либо внутренний буфер во флинк на write, или спарком сразу нужного размера батч из кафки берёшь
именно
самое классное начинается, когда поток по настоящему большой
а если еще надо бы и с начала топика прочитать
да еще и успевать за ретеншном в кафке
источник

S

Stanislav in Data Engineers
Grigory Pomadchin
ну у тя картинка весит 40 гигов (и таких мног); а ты хочешь что-то долгое сделать
тут честный стриминг не сработает - тебе тут батч какойто хочется
передача 40 гиговых картинок кафкой
источник

GP

Grigory Pomadchin in Data Engineers
Daniel Matveev
ну только если у тебя тачка не на 400ГБ и то хз как параллелить картинки таких размеров
порезал мету покускам; зашафлил; прочитал что надо
источник

S

Stanislav in Data Engineers
мне кажется, что там не в спарке дело )
источник

GP

Grigory Pomadchin in Data Engineers
Stanislav
передача 40 гиговых картинок кафкой
(в ссобщениях можно ссылки передавать)
источник