Size: a a a

2020 November 03

AZ

Anton Zadorozhniy in Data Engineers
ну вот Терадата даже небольших размеров держит два десятка интерактивных пользователей на сильно больших объемах, 95 процентиль для тактических запросов в районе 2-5 секунд вроде
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
я с гринплам не работал - он может быстро-быстро?
я не знаю как там с ин-мемори, может прикрутили, но в планах было вроде
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
типа вот например пивот табличка и ее по всякому в рилтайме обновлять
а какой поток обновлений?
источник

AT

Al T in Data Engineers
обновления можно будет пачками я думаю и даже вариант с перезаписыванием датасета полностью будет наверно подходящим. в пивот табличке всегда почти будут все 50-60 колонок то есть там в итогде будет что-то типа select * from a where ... group by ... limit X,Y
источник

AT

Al T in Data Engineers
Anton Zadorozhniy
ну вот Терадата даже небольших размеров держит два десятка интерактивных пользователей на сильно больших объемах, 95 процентиль для тактических запросов в районе 2-5 секунд вроде
а небольшой размер это сколько ориентировочно
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
обновления можно будет пачками я думаю и даже вариант с перезаписыванием датасета полностью будет наверно подходящим. в пивот табличке всегда почти будут все 50-60 колонок то есть там в итогде будет что-то типа select * from a where ... group by ... limit X,Y
а джоины будут?
источник

AT

Al T in Data Engineers
Джойнов вроде бы не планируется
источник

AZ

Anton Zadorozhniy in Data Engineers
тогда наверное можно попробовать проскочить без РСУБД
источник

AT

Al T in Data Engineers
веруете в spark+livy для такого случая?
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
веруете в spark+livy для такого случая?
не очень, но не от хорошей жизни видимо планируете их использовать
источник

AZ

Anton Zadorozhniy in Data Engineers
а на облаке или свои железки?
источник

AT

Al T in Data Engineers
ну я сам не верую, если честно. в AWS облаке
источник

AZ

Anton Zadorozhniy in Data Engineers
Al T
ну я сам не верую, если честно. в AWS облаке
тогда delta engine это то что доктор прописал
источник

AT

Al T in Data Engineers
а как же 2 сек на query?
источник

AZ

Anton Zadorozhniy in Data Engineers
у них кэш в DBIO, и кругом заявляют subsecond результаты, как минимум попробовать можно
источник

AZ

Anton Zadorozhniy in Data Engineers
если на EMR то придется в локальный HDFS пихать, поверх S3 точно не полетит
источник

AT

Al T in Data Engineers
да
источник

AT

Al T in Data Engineers
ок спасиб Антон
источник

AZ

Anton Zadorozhniy in Data Engineers
на каких-нибудь i3.16xlarge все должно быть неплохо, но вопрос в вашем бюджете
источник

AZ

Anton Zadorozhniy in Data Engineers
а терадата средняя будет штук 6-10 m5.12xlarge, но ради одного такого кейса (особенно без джоинов) это оверкилл
источник