Телеграмм чат группы hadoopusers страница 2627

отторгает где-то на уровне пользовательского интерфейса для спарка

Не пользовательский интерфейс для спарка а пользовательский интерфейс для работы с данными.

17:52пожаловаться #1

A

Artem in Data Engineers

Мне просто интересно, есть ли в принципе у кого опыт выдачи данных в кастомный интерфейс с испольщованием spark. И с использованием какого транспорта. Мне кажется что kafka тут вроде не плохо ложится. но боюсь что у меня ограниченные знания и я не вижу каких то очевидных проблем

Тут задача не совсем ясна. Похожую проблему решает Zeppelin, который позволяет пользователям запросы через спарк писать. Он сам сессиями спарка управляет

17:53пожаловаться #2

G

ну и ui опыт у пользователя будет классным со временем доставки кафки и чтения кафки из спарка

То есть есть шанс что время будет некомфортно большим?

17:53пожаловаться #3

S

Stanislav in Data Engineers

То есть есть шанс что время будет некомфортно большим?

оно будет пипец каким некомфортным

17:53пожаловаться #4

G

Artem

Тут задача не совсем ясна. Похожую проблему решает Zeppelin, который позволяет пользователям запросы через спарк писать. Он сам сессиями спарка управляет

Вот да но! Пользователь неопытный и для него пишется собственный интерфейс

17:53пожаловаться #5

A

Artem in Data Engineers

Вот да но! Пользователь неопытный и для него пишется собственный интерфейс

Я к тому что можно своё решение с похожей архитектурой сделать

17:54пожаловаться #6

G

оно будет пипец каким некомфортным

Ну если расссматривать весь цикл с поднятием сессии, запросом и отдачей данных - согласен. но если сессия будет всегда открыта?

17:54пожаловаться #7

G

Artem

Я к тому что можно своё решение с похожей архитектурой сделать

Похоей - какой?

17:54пожаловаться #8

S

Stanislav in Data Engineers

Вот да но! Пользователь неопытный и для него пишется собственный интерфейс

ничего себе какой пользователь, что стоит разработки интерфейса под него
может он все-таки научится sql?

17:55пожаловаться #9

G

ничего себе какой пользователь, что стоит разработки интерфейса под него
может он все-таки научится sql?

Без шансов. Это простой бухгалтер 🙂

17:56пожаловаться #10

A

Aleksey in Data Engineers

Без шансов. Это простой бухгалтер 🙂

Дорогое решение получится для вашего бухгалтера. Вам же потом ещё сопровождать все это и оборудование выделять. Чем больше компонент - тем больше вероятность отказа. Кто-то ещё будет потреблять эти данные из Кафки или только UI для бухгалтера?

18:08пожаловаться #11

G

Aleksey

Дорогое решение получится для вашего бухгалтера. Вам же потом ещё сопровождать все это и оборудование выделять. Чем больше компонент - тем больше вероятность отказа. Кто-то ещё будет потреблять эти данные из Кафки или только UI для бухгалтера?

Только. Там народу будет около 100человек.

18:09пожаловаться #12

G

Решение не дорогое. Интерфейс уже готов. В принципе решение сделано с вышрузом данных в постгре. Но мне не нравится такое решение. Я хочу пользователю давать данные сразу из hdfs

18:10пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Решение не дорогое. Интерфейс уже готов. В принципе решение сделано с вышрузом данных в постгре. Но мне не нравится такое решение. Я хочу пользователю давать данные сразу из hdfs

а чем вам не нравится такое решение, если не секрет? логичное разделение ответственности и архитектуры: операционное приложение с операционной базой, аналитический сервис отдельно с прикладным интерфейсом

18:14пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

будет что-то еще вместо HDFS - достаточно переделать небольшую часть

18:15пожаловаться #15

G

Anton Zadorozhniy

а чем вам не нравится такое решение, если не секрет? логичное разделение ответственности и архитектуры: операционное приложение с операционной базой, аналитический сервис отдельно с прикладным интерфейсом

Мне по началу тоже так показалось. Достаточно логичное решение. Но тут возникают серьезные проблемы с ограничением по транзакционности. проблемы с взаимодействием с базой. Синхронизация данных. Очень много вопросов с сохранением актуальноысти данных на источнике и в витринной базе. А тут, когда пользователь смотрит на реальные данные - все эти вопросы отпадают. Я уже не беру в расчет, что пришлось серьезно извратиться чтобы выборка данных для пользователя была максимально оперативно подготовленной.

18:17пожаловаться #16

G

У меня было видение и движение к следующм решениям. Поднимать открытые сессии и в рамках нескольких сессий отправлять spark запросы к данным. Еще одним вариантом - HBase, как база для хранения. Но вот пришла мысль насчет кафки. и подумалось.

18:19пожаловаться #17

G

Еще очень не плохой вариант - Apache Livy. И больше скажу - я его реализовал и получилось годно, но в компании на него харам

18:19пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

ну а если livy вам так подошел, то почему не просто Spark Thrift Server и JDBC подключение к нему из бэка?