Size: a a a

2020 December 16

S

Stanislav in Data Engineers
здорово
смогли наложить маску
осталось остальное :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Stanislav
здорово
смогли наложить маску
осталось остальное :)
для не очень больших монореп вполне рабочий вариант, а дальше да, всякие базели с друзьями могут работать лучше (правда сам базель это то еще испытание)
источник

MB

Mikhail Butalin in Data Engineers
Anton Zadorozhniy
А какие запросы? Агрегаты какие-то или просто строчки по сильно селективному ключу?
ага
источник

AZ

Anton Zadorozhniy in Data Engineers
так какие? :)
источник

MB

Mikhail Butalin in Data Engineers
все вперемешку
источник

MB

Mikhail Butalin in Data Engineers
система архивная
источник

MB

Mikhail Butalin in Data Engineers
старые проводки, операции с группировками джоинами итп
источник

MB

Mikhail Butalin in Data Engineers
так что там все типы запросов есть
источник

AZ

Anton Zadorozhniy in Data Engineers
ну тогда это скорее аналитическая система, чем простой архив
источник

MB

Mikhail Butalin in Data Engineers
в том и проблема.
источник

AZ

Anton Zadorozhniy in Data Engineers
импала или престо потенциально могут дать больше производительности, но в части оверхеда на запуск запросов, само чтение с дисков быстрее (или умнее) не станет
источник

MB

Mikhail Butalin in Data Engineers
ее нельзя назвать однотипной. там пользователи долбят на всё подряд. От запроса с результатом на 2-3 строки по клиенту до оборотов за месяц/год итп
источник

MB

Mikhail Butalin in Data Engineers
для RDBMS это не проблема. А вот то что это положили в хайв - IMHO проблема
источник

AZ

Anton Zadorozhniy in Data Engineers
(если вы на своем железе, он-прем) хадуп то что нужно, СУБД либо специализированная (а-ля кликхаус, со своими ограничениями по инструментам и языку), либо какие-то проприетарные опции вроде вертики, на петабайты может стоить дорого
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Butalin
для RDBMS это не проблема. А вот то что это положили в хайв - IMHO проблема
а в чем проблема конкретно, время отклика на конкретный запрос, или concurrency?
источник

AZ

Anton Zadorozhniy in Data Engineers
а, да, терадата еще отличная опция, она умеет и агрегаты, и индексный доступ, и колоночное хранение, и самый что ни на есть ANSI SQL)
источник

AZ

Anton Zadorozhniy in Data Engineers
(иногда забываю где работаю))
источник

MB

Mikhail Butalin in Data Engineers
Anton Zadorozhniy
а в чем проблема конкретно, время отклика на конкретный запрос, или concurrency?
в моей картине мира реализация архивной БД, взятой из RDBMS и перенесенной на HIVE - так себе решение.

У нас уже жалуются пользователи на то что медленно выполняются запросы. Абыстрее то и не будет.
источник

MB

Mikhail Butalin in Data Engineers
А задача ставится так что максимальное время  выполнения запроса должно быть менее 1сек.
источник

MB

Mikhail Butalin in Data Engineers
Ну бред же.
источник