Size: a a a

2019 November 19

GP

Grigory Pomadchin in Data Engineers
а мерял кто-нибудь удачный по перформансу переход со спарков на флинки? @optician_owl @fall_out_bug @xhumanoid
источник

DM

Daniel Matveev in Data Engineers
в моем кейсе не особо роляло на чем, субъективно на тот момент предпочитал флинк, несмотря на болезненное апи
источник

DM

Daniel Matveev in Data Engineers
наверняка без особых телодвижений такой же перформанс мог и на спарке получить
источник

S

Sergey in Data Engineers
Valasovich Siarhei
Привет всем, кто использовал Flink и Spark Streaming? Какие впечатления и что по производительности?)
Выбирали между ними, в итоге остановились на flinke - так как в кликхаус на флинке удалось быстрее заливать
источник

A

Alex in Data Engineers
в моём случае хотели вообще от ранера абстрагироваться, поэтому beam выбрали
достаточно долго могли запускаться на обоих (flink,spark),
но так как спарк там говно и палки ранер (медленный и очень много чего не поддерживает), то остался в итоге флинк

в другой части проекта где больше батч ожидался использовали спарк
источник

A

Alex in Data Engineers
в текущей компании везде пока спарк,
но соседний отдел пытается может затянуть https://github.com/gojek/feast
он на beam/dataflow

попытки запустить его на спарк они делают, но уже плюются от качества ранера
поэтому с очень высокой вероятностью скоро и тут флинк появится
источник

A

Alex in Data Engineers
в лоб производительность не сравнивал, так как обычно смотрю какой инструмент конкретно в данный кейс ложится или нет
чтобы везде что-то одно продавливать сильно нету
источник

K

KrivdaTheTriewe in Data Engineers
Так может перестать абстрагироваться , если абстракция ничего не даёт ?
источник

A

Alex in Data Engineers
потому что хотелось бы переиспользовать готовые наработки/операторы для batch и stream с минимальным оверхедом-изменением кода
источник

DM

Daniel Matveev in Data Engineers
флинк вроде ж заявляет что у него апи и туда и сюда одинаковое
источник

A

Alex in Data Engineers
во флинке да, он во многих местах копирует dataflow
источник

A

Alex in Data Engineers
но есть нюансы =)
источник

A

Alex in Data Engineers
что плохо в биме было на тот момент сделано: большой оверхед на перекодирование для state api

хотя в том же spark весь стейт апи убог до невозможного
(только вчера в данном чате было обсуждение как сделать session window на спарк стриминге)
источник

V

VladMl in Data Engineers
Тут многие сравнивают в контексте забирать данные из кафки. Почему не Кафка стрим?
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк spark streaming пытаются больше использовать команды растущие из дата сайнса или дата инжиниринга, а флин - команды с бэкграундом в обычной разработке
источник

DM

Daniel Matveev in Data Engineers
у кафка стриминга не оч с ребалансом как минимум
источник

AZ

Anton Zadorozhniy in Data Engineers
и да, @xhumanoid прав, у spark streaming явный потолок по сложности stateful логики, в какой-то момент начинается вынос костылей наружу и борьба с инструментом
источник

A

Alex in Data Engineers
VladMl
Тут многие сравнивают в контексте забирать данные из кафки. Почему не Кафка стрим?
и скейлить в докер кластере …. ручками придумыя шафлы или повторно перегоняя их через ту же кафка топик

в общем слишком много нюансов, для простых задач кафка стриминг пойдёт, но сложные пайплайны я бы в него не пихал
источник

A

Alex in Data Engineers
@dartov стейтфул отдельная тема для спарка, мы пару раз извращались пытаясь запихивать в статик контекст что-то, чтобы если попадём второй раз на этот воркер, то не пришлось с нуля всё инициализировать
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
и скейлить в докер кластере …. ручками придумыя шафлы или повторно перегоняя их через ту же кафка топик

в общем слишком много нюансов, для простых задач кафка стриминг пойдёт, но сложные пайплайны я бы в него не пихал
вижен confluent - все что может быть сделано на ksql должно быть там, дальше kstreams и поэтому кмк они не нацеливают kstreams на конкуренцию с flink / spark streaming, их цель - обеспечить ksql инструменты для условного citizen data engineer
источник