Size: a a a

2020 August 13

G

Gev in Data Engineers
Stanislav
отторгает где-то на уровне пользовательского интерфейса для спарка
Не пользовательский интерфейс для спарка а пользовательский интерфейс для работы с данными.
источник

A

Artem in Data Engineers
Gev
Мне просто интересно, есть ли в принципе у кого опыт выдачи данных в кастомный интерфейс с испольщованием spark. И с использованием какого транспорта. Мне кажется что kafka тут вроде не плохо ложится. но боюсь что у меня ограниченные знания и я не вижу каких то очевидных проблем
Тут задача не совсем ясна. Похожую проблему решает Zeppelin, который позволяет пользователям запросы через спарк писать. Он сам сессиями спарка управляет
источник

G

Gev in Data Engineers
Stanislav
ну и ui опыт у пользователя будет классным со временем доставки кафки и чтения кафки из спарка
То есть есть шанс что время будет некомфортно большим?
источник

S

Stanislav in Data Engineers
Gev
То есть есть шанс что время будет некомфортно большим?
оно будет пипец каким некомфортным
источник

G

Gev in Data Engineers
Artem
Тут задача не совсем ясна. Похожую проблему решает Zeppelin, который позволяет пользователям запросы через спарк писать. Он сам сессиями спарка управляет
Вот да но! Пользователь неопытный и для него пишется собственный интерфейс
источник

A

Artem in Data Engineers
Gev
Вот да но! Пользователь неопытный и для него пишется собственный интерфейс
Я к тому что можно своё решение с похожей архитектурой сделать
источник

G

Gev in Data Engineers
Stanislav
оно будет пипец каким некомфортным
Ну если расссматривать весь цикл с поднятием сессии, запросом и отдачей данных - согласен. но если сессия будет всегда открыта?
источник

G

Gev in Data Engineers
Artem
Я к тому что можно своё решение с похожей архитектурой сделать
Похоей - какой?
источник

S

Stanislav in Data Engineers
Gev
Вот да но! Пользователь неопытный и для него пишется собственный интерфейс
ничего себе какой пользователь, что стоит разработки интерфейса под него
может он все-таки научится sql?
источник

G

Gev in Data Engineers
Stanislav
ничего себе какой пользователь, что стоит разработки интерфейса под него
может он все-таки научится sql?
Без шансов. Это простой бухгалтер 🙂
источник

A

Aleksey in Data Engineers
Gev
Без шансов. Это простой бухгалтер 🙂
Дорогое решение получится для вашего бухгалтера. Вам же потом ещё сопровождать все это и оборудование выделять. Чем больше компонент - тем больше вероятность отказа. Кто-то ещё будет потреблять эти данные из Кафки или только UI для бухгалтера?
источник

G

Gev in Data Engineers
Aleksey
Дорогое решение получится для вашего бухгалтера. Вам же потом ещё сопровождать все это и оборудование выделять. Чем больше компонент - тем больше вероятность отказа. Кто-то ещё будет потреблять эти данные из Кафки или только UI для бухгалтера?
Только. Там народу будет около 100человек.
источник

G

Gev in Data Engineers
Решение не дорогое. Интерфейс уже готов. В принципе решение сделано с вышрузом данных в постгре. Но мне не нравится такое решение. Я хочу пользователю давать данные сразу из hdfs
источник

AZ

Anton Zadorozhniy in Data Engineers
Gev
Решение не дорогое. Интерфейс уже готов. В принципе решение сделано с вышрузом данных в постгре. Но мне не нравится такое решение. Я хочу пользователю давать данные сразу из hdfs
а чем вам не нравится такое решение, если не секрет? логичное разделение ответственности и архитектуры: операционное приложение с операционной базой, аналитический сервис отдельно с прикладным интерфейсом
источник

AZ

Anton Zadorozhniy in Data Engineers
будет что-то еще вместо HDFS - достаточно переделать небольшую часть
источник

G

Gev in Data Engineers
Anton Zadorozhniy
а чем вам не нравится такое решение, если не секрет? логичное разделение ответственности и архитектуры: операционное приложение с операционной базой, аналитический сервис отдельно с прикладным интерфейсом
Мне по началу тоже так показалось. Достаточно логичное решение. Но тут возникают серьезные проблемы с ограничением по транзакционности. проблемы с взаимодействием с базой. Синхронизация данных. Очень много вопросов с сохранением актуальноысти данных на источнике и в витринной базе. А тут, когда пользователь смотрит на реальные данные - все эти вопросы отпадают. Я уже не беру в расчет, что пришлось серьезно извратиться чтобы выборка данных для пользователя была максимально оперативно подготовленной.
источник

G

Gev in Data Engineers
У меня было видение и движение к следующм решениям. Поднимать открытые сессии и в рамках нескольких сессий отправлять spark запросы к данным. Еще одним вариантом - HBase, как база для хранения. Но вот пришла мысль насчет кафки. и подумалось.
источник

G

Gev in Data Engineers
Еще очень не плохой вариант - Apache Livy. И больше скажу - я его реализовал и получилось годно, но в компании на него харам
источник

AZ

Anton Zadorozhniy in Data Engineers
ну а если livy вам так подошел, то почему не просто Spark Thrift Server и JDBC подключение к нему из бэка?
источник

G

Gev in Data Engineers
Anton Zadorozhniy
ну а если livy вам так подошел, то почему не просто Spark Thrift Server и JDBC подключение к нему из бэка?
Ну вот это как вариант я тоже рассматриваю.
источник