Size: a a a

2020 December 16

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Butalin
в моей картине мира реализация архивной БД, взятой из RDBMS и перенесенной на HIVE - так себе решение.

У нас уже жалуются пользователи на то что медленно выполняются запросы. Абыстрее то и не будет.
если у вас не Hive LLAP (а видимо нет), то у хайва довольно большой оверхед на запуск запроса, в виде запуска YARN приложения
источник

MB

Mikhail Butalin in Data Engineers
ога
источник

MB

Mikhail Butalin in Data Engineers
там вообще всё весело.
источник

AZ

Anton Zadorozhniy in Data Engineers
менее 1 сек на большой процентили (95 например) это можно попробовать на престе или импале, но только на очень небольшом спектре запросов
источник

MB

Mikhail Butalin in Data Engineers
просто апофеоз дибильности
источник

AZ

Anton Zadorozhniy in Data Engineers
надо понять сколько пользователи готовы платить, уверен что микрофокус или наши бойцы сделают вам отличное предложение)
источник

MB

Mikhail Butalin in Data Engineers
Пользователи присоединяются к hive через jdbc из jasper
источник

AZ

Anton Zadorozhniy in Data Engineers
как раз обычная история, дешево и сердито
источник

e

er@essbase.ru in Data Engineers
источник

e

er@essbase.ru in Data Engineers
*коллеги очень сильно хвалят llap для *моментальных* запросов к статичным таблицам .
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
*коллеги очень сильно хвалят llap для *моментальных* запросов к статичным таблицам .
я готов поставить sixpack пилзнера что эти коллеги не из эксплуатации
источник

R

Roman in Data Engineers
Mikhail Butalin
Я прото что не будет ли медленнее тот же самый запрос работать через HIVE нежели через Impala?
Смотря какой hive ещё. Если у вас древняя версия на движке map reduce, то да, будет ощутимо медленнее там, где джоины особенно.
источник

N

Nikita Blagodarnyy in Data Engineers
Mikhail Butalin
А задача ставится так что максимальное время  выполнения запроса должно быть менее 1сек.
В кх не полезет?
источник

S

Stanislav in Data Engineers
Roman
Смотря какой hive ещё. Если у вас древняя версия на движке map reduce, то да, будет ощутимо медленнее там, где джоины особенно.
Зато на сложных запросах на нормальном объёме данных оно просто работает, а не играет в ваньку-встаньку с оом как тез
источник

AZ

Anton Zadorozhniy in Data Engineers
Stanislav
Зато на сложных запросах на нормальном объёме данных оно просто работает, а не играет в ваньку-встаньку с оом как тез
причем ООМ выигрывает в этой игре очень часто :(
источник

S

Stanislav in Data Engineers
Anton Zadorozhniy
надо понять сколько пользователи готовы платить, уверен что микрофокус или наши бойцы сделают вам отличное предложение)
А какой порядок цифр стоимости для таких систем, 1 секунда на 95% запросов на 1 пб? Мне кажется, что все просто высасывают эту 1 секунду из головы, не представляя сложности систем
источник

R

Roman in Data Engineers
Stanislav
А какой порядок цифр стоимости для таких систем, 1 секунда на 95% запросов на 1 пб? Мне кажется, что все просто высасывают эту 1 секунду из головы, не представляя сложности систем
Тут ещё важный критерий это количество возможных параллельных запросов
источник

e

er@essbase.ru in Data Engineers
Stanislav
А какой порядок цифр стоимости для таких систем, 1 секунда на 95% запросов на 1 пб? Мне кажется, что все просто высасывают эту 1 секунду из головы, не представляя сложности систем
Отчётные витрины с дриллингом до деталей не принято строить в Бигдате ?
источник

AZ

Anton Zadorozhniy in Data Engineers
Stanislav
А какой порядок цифр стоимости для таких систем, 1 секунда на 95% запросов на 1 пб? Мне кажется, что все просто высасывают эту 1 секунду из головы, не представляя сложности систем
по деньгам я не скажу, но ситуация когда надо гарантировать время отклика для определенных классов запросов (например план такого вида где на входе таблицы  таких размеров, с такой селективностью по ключам работает за 500мс до 50 одновременных пользователей в этой ресурсной партиции)  - довольно частая, в разных СУБД есть всякие механизмы управления ресурсами для таких штук
источник

AZ

Anton Zadorozhniy in Data Engineers
(это я не про СУБД реального времени, это отдельный класс систем, я про обычные аналитические MPP СУБД)
источник