Телеграмм чат группы hadoopusers страница 1782

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 November 19

Grigory Pomadchin in Data Engineers

а мерял кто-нибудь удачный по перформансу переход со спарков на флинки? @optician_owl @fall_out_bug @xhumanoid

источник

09:37пожаловаться #1

Daniel Matveev in Data Engineers

в моем кейсе не особо роляло на чем, субъективно на тот момент предпочитал флинк, несмотря на болезненное апи

источник

09:39пожаловаться #2

Daniel Matveev in Data Engineers

наверняка без особых телодвижений такой же перформанс мог и на спарке получить

источник

09:40пожаловаться #3

Sergey in Data Engineers

Valasovich Siarhei

Привет всем, кто использовал Flink и Spark Streaming? Какие впечатления и что по производительности?)

Выбирали между ними, в итоге остановились на flinke - так как в кликхаус на флинке удалось быстрее заливать

источник

09:41пожаловаться #4

Alex in Data Engineers

в моём случае хотели вообще от ранера абстрагироваться, поэтому beam выбрали
достаточно долго могли запускаться на обоих (flink,spark),
но так как спарк там говно и палки ранер (медленный и очень много чего не поддерживает), то остался в итоге флинк

в другой части проекта где больше батч ожидался использовали спарк

источник

09:48пожаловаться #5

Alex in Data Engineers

в текущей компании везде пока спарк,
но соседний отдел пытается может затянуть https://github.com/gojek/feast
он на beam/dataflow

попытки запустить его на спарк они делают, но уже плюются от качества ранера
поэтому с очень высокой вероятностью скоро и тут флинк появится

источник

09:50пожаловаться #6

Alex in Data Engineers

в лоб производительность не сравнивал, так как обычно смотрю какой инструмент конкретно в данный кейс ложится или нет
чтобы везде что-то одно продавливать сильно нету

источник

09:51пожаловаться #7

KrivdaTheTriewe in Data Engineers

Так может перестать абстрагироваться , если абстракция ничего не даёт ?

источник

10:00пожаловаться #8

Alex in Data Engineers

потому что хотелось бы переиспользовать готовые наработки/операторы для batch и stream с минимальным оверхедом-изменением кода

источник

10:15пожаловаться #9

Daniel Matveev in Data Engineers

флинк вроде ж заявляет что у него апи и туда и сюда одинаковое

источник

10:16пожаловаться #10

Alex in Data Engineers

во флинке да, он во многих местах копирует dataflow

источник

10:16пожаловаться #11

Alex in Data Engineers

но есть нюансы =)

источник

10:17пожаловаться #12

Alex in Data Engineers

что плохо в биме было на тот момент сделано: большой оверхед на перекодирование для state api

хотя в том же spark весь стейт апи убог до невозможного
(только вчера в данном чате было обсуждение как сделать session window на спарк стриминге)

источник

10:18пожаловаться #13

VladMl in Data Engineers

Тут многие сравнивают в контексте забирать данные из кафки. Почему не Кафка стрим?

источник

10:23пожаловаться #14

Anton Zadorozhniy in Data Engineers

кмк spark streaming пытаются больше использовать команды растущие из дата сайнса или дата инжиниринга, а флин - команды с бэкграундом в обычной разработке

источник

10:23пожаловаться #15

Daniel Matveev in Data Engineers

у кафка стриминга не оч с ребалансом как минимум

источник

10:24пожаловаться #16

Anton Zadorozhniy in Data Engineers

и да, @xhumanoid прав, у spark streaming явный потолок по сложности stateful логики, в какой-то момент начинается вынос костылей наружу и борьба с инструментом

источник

10:24пожаловаться #17

Alex in Data Engineers

VladMl

Тут многие сравнивают в контексте забирать данные из кафки. Почему не Кафка стрим?

и скейлить в докер кластере …. ручками придумыя шафлы или повторно перегоняя их через ту же кафка топик

в общем слишком много нюансов, для простых задач кафка стриминг пойдёт, но сложные пайплайны я бы в него не пихал

источник

10:24пожаловаться #18

Alex in Data Engineers

@dartov стейтфул отдельная тема для спарка, мы пару раз извращались пытаясь запихивать в статик контекст что-то, чтобы если попадём второй раз на этот воркер, то не пришлось с нуля всё инициализировать

источник

10:25пожаловаться #19

Anton Zadorozhniy in Data Engineers

Alex

вижен confluent - все что может быть сделано на ksql должно быть там, дальше kstreams и поэтому кмк они не нацеливают kstreams на конкуренцию с flink / spark streaming, их цель - обеспечить ksql инструменты для условного citizen data engineer

источник

10:27пожаловаться #20