Size: a a a

Архитектура данных

2018 July 08

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
Вместо spark streaming под эту задачу посмотрите еще flink
хочется снизить порог входа в код, и попробовать spark structured streaming. У flink таки нужно писать цивилизованный java код
источник

AS

Andrey Shevchenko in Архитектура данных
А в spark не надо?)
источник

DT

Denis Troyan in Архитектура данных
здесь flink, как мне видится, даст только честный эвент процессинг, а не микробатч
источник

DT

Denis Troyan in Архитектура данных
Andrey Shevchenko
А в spark не надо?)
там есть spark sql, который с 2.1.0 поддерживает spark streaming
источник

AS

Andrey Shevchenko in Архитектура данных
Denis Troyan
там есть spark sql, который с 2.1.0 поддерживает spark streaming
Я в курсе, но там тоже нужно писать код, а ещё желательно потом план посмотреть
источник

PG

Paul Golubev in Архитектура данных
В мускуле то он зачем near online?
источник

PG

Paul Golubev in Архитектура данных
Точнее они, данные
источник

AS

Andrey Shevchenko in Архитектура данных
Paul Golubev
В мускуле то он зачем near online?
👍
источник

DT

Denis Troyan in Архитектура данных
Paul Golubev
В мускуле то он зачем near online?
чтобы иметь в нем близкий к актуальному снепшот данных в системе, которая не имеет sql бд, и поэтому единственный вариант собрать снепшот - ловить эвенты, и апсертить по ключу в mysql
источник

PG

Paul Golubev in Архитектура данных
Зачем снепшот близки к реалтайм, в мускуле?)
источник

PG

Paul Golubev in Архитектура данных
Верхнеуровневая задача
источник

DT

Denis Troyan in Архитектура данных
Paul Golubev
Зачем снепшот близки к реалтайм, в мускуле?)
показывать их в ui для мониторинга
источник

PG

Paul Golubev in Архитектура данных
А чем кафка сама по себе не подходит тогда?
источник

DT

Denis Troyan in Архитектура данных
вариант научить смотреть мониторинг в кафку - рассматривается, но как запасной
источник

DT

Denis Troyan in Архитектура данных
потому что сейчас мониторинг уже смотрит в mysql
источник

MV

Mitya Volodin in Архитектура данных
Denis Troyan
Есть необходимость в near-online вычитывать json tuple данные из кафки, процессить их немного и писать в mysql. Суть - выдергивать из логов эвенты, и сохранять их в подходящем для sql-запроса формате в mysql. Думаю попробовать spark streaming в java реализации. Кто знает про подводные камни, или может предложить вариант проще/лучше?
Flink
источник

DT

Denis Troyan in Архитектура данных
и джойнить данные между кафкой и mysql  - задача сложнее, чем внутри mysql
источник

DT

Denis Troyan in Архитектура данных
чем лучше spark streaming? (кроме того, что оно не микробатч)
источник

MV

Mitya Volodin in Архитектура данных
Ну есть плюсы, есть минусы. Главный минус, наверное, это то, что проект молодой. В остальном он по скорости и возможностям on-line стриминг должен эффективней тянуть.
источник

MV

Mitya Volodin in Архитектура данных
Я честно скажу, мы сейчас делаем проект, у нас они парой. Flink + Spark Streaming. Но второй - на всякий случай ))
источник