Size: a a a

Архитектура данных

2019 November 16

E

Eugene in Архитектура данных
Про монетизацию - аналитика на этих данных, КМК
источник

GK

Gennadiy Kruglov in Архитектура данных
Поддержка бизнес-процессов, юзер экспириенс, качество данных
источник

GK

Gennadiy Kruglov in Архитектура данных
А хотят то машин лёрнинг и искусственный интеллект. И свести экономику не могут
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
Paul Golubev
+ в облаках дешевле стоимость аппаратных ресурсов, чем у себя. А хадуп именно этим выделялся
Вы видать не делали оценку инфраструктуры, облака в плюсе в лучшем случае на 3 года
источник

GK

Gennadiy Kruglov in Архитектура данных
Посыл такой, мы не уверены, что датасатанисты найдут бриллиант в нашей большой дате, поэтому дайте подписку
источник

GK

Gennadiy Kruglov in Архитектура данных
А большая дата не только про датасатанизм
источник

GK

Gennadiy Kruglov in Архитектура данных
Но это гипноза конечно. Не известно чего они хотят
источник
2019 November 24

PG

Paul Golubev in Архитектура данных
Кто работает с greenplum, подскажите плиз. Меня пытаются убедить, что при подключении больше чем 50 одновременных пользователей у базы начинаются проблемы, и это особенности базы. Что вроде как в Тинькофф есть гринплам, но есть и второе хранилище, как раз из-за этих проблем. Есть ли доля истины в этом?
источник

OP

O. Petr in Архитектура данных
Paul Golubev
Кто работает с greenplum, подскажите плиз. Меня пытаются убедить, что при подключении больше чем 50 одновременных пользователей у базы начинаются проблемы, и это особенности базы. Что вроде как в Тинькофф есть гринплам, но есть и второе хранилище, как раз из-за этих проблем. Есть ли доля истины в этом?
Лучше там спрашивать @greenplum_russia , там из арена даты сидят люди, они вам и более технически ответят, и мифы развеют, и услуги свои предложат ).  1) зависит от активности(сложности запросов) пользователей (открытых коннектов) и ресурсов самого кластера, мы сталкивались с тем что даже 2 больших запроса могли все положить, оказалось что дело в распределении ресурсов. 2) сомнительно звучит, что именно из за этого
источник

FL

Fedor Lavrentyev in Архитектура данных
У Greenplum сыровато с resource management'ом, он не умеет считать фактическое потребление памяти, только планируемое. Он умеет выделять по квоте памяти на каждый запрос. Если квоты на кластере больше нет, запрос становится в очередь. Таким образом, действительно, можно настроить кластер так, что он не сможет выполнять больше N параллельных запросов. А можно настроить с оверкоммитом по памяти, так что N будет сильно больше, но тогда иногда запросы будут забавно массово падать. Научить его относительному квотированию, preemption'у и анализу фактического потребления пока нельзя.
источник

PG

Paul Golubev in Архитектура данных
Спасибо, ценная инфа
источник

FL

Fedor Lavrentyev in Архитектура данных
У нас это пока ни разу не было проблемным местом. Правда, к концу квартала метрики могут выглядеть жарковато, а в мирное время я расстраиваюсь из-за недоутилизации кластера. :)
источник

e

er@essbase.ru in Архитектура данных
Fedor Lavrentyev
У Greenplum сыровато с resource management'ом, он не умеет считать фактическое потребление памяти, только планируемое. Он умеет выделять по квоте памяти на каждый запрос. Если квоты на кластере больше нет, запрос становится в очередь. Таким образом, действительно, можно настроить кластер так, что он не сможет выполнять больше N параллельных запросов. А можно настроить с оверкоммитом по памяти, так что N будет сильно больше, но тогда иногда запросы будут забавно массово падать. Научить его относительному квотированию, preemption'у и анализу фактического потребления пока нельзя.
какой работающий сценарий использования gp?
источник

FL

Fedor Lavrentyev in Архитектура данных
er@essbase.ru
какой работающий сценарий использования gp?
Оно в целом работает. :)
У нас GP это основная аналитическая лошадка.
источник

PG

Paul Golubev in Архитектура данных
Fedor Lavrentyev
Оно в целом работает. :)
У нас GP это основная аналитическая лошадка.
Табло на нем вживую крутят или экстракты?
источник

FL

Fedor Lavrentyev in Архитектура данных
Paul Golubev
Табло на нем вживую крутят или экстракты?
Можно вживую, особенно, если диски добротные. Можно экстракты, пока машинки Табло хватает. В Табло проще упереться, чем в GP.
источник
2019 December 03

K

Kirill M in Архитектура данных
Светаните книжечки по дата моделированию. Можно не про хранилища, а in general.
Про кимбала знаю
источник

PG

Paul Golubev in Архитектура данных
Building scalable warehouse with data vault 2.0
источник

K

Kirill M in Архитектура данных
И без датаволта
источник

K

Kirill M in Архитектура данных
Он специфичный, надо типа моделируем какую-нибудь бд вообще
источник