Size: a a a

2019 November 19

DM

Daniel Matveev in Data Engineers
Alex
и скейлить в докер кластере …. ручками придумыя шафлы или повторно перегоняя их через ту же кафка топик

в общем слишком много нюансов, для простых задач кафка стриминг пойдёт, но сложные пайплайны я бы в него не пихал
имхо скорее для простых кейсов, которые вот сейчас надо запустить асап
источник

DM

Daniel Matveev in Data Engineers
держать кучу стримов стремно
источник

DM

Daniel Matveev in Data Engineers
рестарт одного в рамках кучки и ребаланс по всем
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
@dartov стейтфул отдельная тема для спарка, мы пару раз извращались пытаясь запихивать в статик контекст что-то, чтобы если попадём второй раз на этот воркер, то не пришлось с нуля всё инициализировать
да, я обычно пихаю в базу, но именно такие велосипеды имею в виду
источник

IP

Ilya Pribytkov in Data Engineers
ребята всем привет, пытаюсь протестировать метод FunSuite  тестом, но ассерт чет не хочет работать, может кто подскажет?
источник

IP

Ilya Pribytkov in Data Engineers
источник

IP

Ilya Pribytkov in Data Engineers
мож иплиситы какие надо?
источник

A

Alex in Data Engineers
Anton Zadorozhniy
да, я обычно пихаю в базу, но именно такие велосипеды имею в виду
база это когда чисто стейт, делали и такое

иногда это может быть кеш, который не хочется каждый раз ходить в базу, но он меняется достаточно редко чтобы можно было ту же hashmap положить в память и ходить в неё. пихали на инициализации в static поле какой guava cache и использовали

бродкатсить можно, но там свои нюансы начинаются
источник

IP

Ilya Pribytkov in Data Engineers
импортнуть
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
база это когда чисто стейт, делали и такое

иногда это может быть кеш, который не хочется каждый раз ходить в базу, но он меняется достаточно редко чтобы можно было ту же hashmap положить в память и ходить в неё. пихали на инициализации в static поле какой guava cache и использовали

бродкатсить можно, но там свои нюансы начинаются
у нас на самой заре в меге была попытка использовать hazelcast над hbase, это было ужасно, мы остановились в итоге на read-only кластере redis
источник

AZ

Anton Zadorozhniy in Data Engineers
щас, насколько знаю, там все переписано на аккуратный flink и прямую работу с hbase
источник

DM

Daniel Matveev in Data Engineers
небось типы не сходятся, col возращает какую то не типизированную хрень, а сравнение с числом

надо смотреть как получить нужный тип значения
источник

K

KrivdaTheTriewe in Data Engineers
Alex
база это когда чисто стейт, делали и такое

иногда это может быть кеш, который не хочется каждый раз ходить в базу, но он меняется достаточно редко чтобы можно было ту же hashmap положить в память и ходить в неё. пихали на инициализации в static поле какой guava cache и использовали

бродкатсить можно, но там свои нюансы начинаются
Transform?
источник

K

KrivdaTheTriewe in Data Engineers
В спарке
источник

A

Alex in Data Engineers
И как это решит проблему на стриминге когда ты не можешь гарантировать на каком воркере ты окажешься?
источник

A

Alex in Data Engineers
В этом плане флинк ближе к шторму: у тебя топологии задеплоена и работает постоянно, в указанный мэп влетают евенты

Спарк: где-то рдд размазано, давайте мы туда закинем код на выполнение очередного микробатча
источник

A

Alex in Data Engineers
@krivdathetriewe
https://databricks.com/blog/2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html

flink это Continuous Processing в контексте спарка
только со своими плюшками которые этот statefull даёт
источник

A

Alex in Data Engineers
если смотреть как они делали Continuous Processing с ватермарками и прогрессом, то там как раз то и получается по дизайну как в dataflow/flink
источник

K

KrivdaTheTriewe in Data Engineers
Я чуть больше изучу вопрос и дам какой то ответ развёрнутый , а со стейтом, да нужно кешами обмазаться
источник

DM

Daniel Matveev in Data Engineers
Alex
если смотреть как они делали Continuous Processing с ватермарками и прогрессом, то там как раз то и получается по дизайну как в dataflow/flink
с вотермарками во флинке говорили не так все гладко, может продалбывать данные
источник