Size: a a a

Архитектура данных

2019 December 03

PG

Paul Golubev in Архитектура данных
Здесь ещё вопрос - надо общее представление вообще или то, что учитывает современные требования типа биг даты?
источник

PG

Paul Golubev in Архитектура данных
DW 2.0 The Architecture for the Next Generation of Data Warehousing
Насколько помню, это от Инмона
источник

K

Kirill M in Архитектура данных
Надо общее, наверное. Чтобы избежать тривиальных ошибок.
Датаволт не подходит, потому что всё грузится онлайн. Нет времени на промежуточные объекты.
источник

GK

Gennadiy Kruglov in Архитектура данных
Разные модели для разных вещей.

В качестве базы: https://www.ozon.ru/context/detail/id/136880774/
источник

GK

Gennadiy Kruglov in Архитектура данных
А по моделированию лучше вот эта книга: https://www.ozon.ru/context/detail/id/139953550/
источник

GK

Gennadiy Kruglov in Архитектура данных
Но это основы
источник

FL

Fedor Lavrentyev in Архитектура данных
Kirill M
Надо общее, наверное. Чтобы избежать тривиальных ошибок.
Датаволт не подходит, потому что всё грузится онлайн. Нет времени на промежуточные объекты.
Если всё онлайн, то надо не про хранилища данных читать, а про потоки. Тут зайдёт Building data intensive applications.
источник

K

Kirill M in Архитектура данных
Там time series бд, в которую всё время льётся. Ей надо нарисовать какую-нибудь модель
источник

K

Kirill M in Архитектура данных
Ну ок
источник

PG

Paul Golubev in Архитектура данных
Kirill M
Там time series бд, в которую всё время льётся. Ей надо нарисовать какую-нибудь модель
Если не нужна одновременно аналитика большого объёма, то базис, данный Геннадием, хорошо пойдет
источник
2019 December 04

A

Alexey in Архитектура данных
Всем привет.  Подскажите, что можно использовать для персистентного хранения актуальных данных? Каждую секунду может приходить несколько десятков тысяч метрик от устройств. Требуется в любой момент времени получать последнюю метрику по какому-то конкретному устройству. Pg сейчас используется для этого,  но для этой задачи от не очень походит.
источник

Д

Дмитрий in Архитектура данных
Influxdb?
источник

Д

Дмитрий in Архитектура данных
Ну или кластер кликхауза, но там вроде кворум коммита нет
источник

A

Alexey in Архитектура данных
Посмотрю, Спасибо
источник

GK

Gennadiy Kruglov in Архитектура данных
Кстати, да. Немного отстал. Раньше порекомендовал бы Cassandra. Сценарий хорошо ложится на wide row модель.

Правда, нужно учитывать ограничения на число колонок.
источник

TL

Taliya Ledneva in Архитектура данных
Alexey
Всем привет.  Подскажите, что можно использовать для персистентного хранения актуальных данных? Каждую секунду может приходить несколько десятков тысяч метрик от устройств. Требуется в любой момент времени получать последнюю метрику по какому-то конкретному устройству. Pg сейчас используется для этого,  но для этой задачи от не очень походит.
посмотрите, вдруг пригодится
источник

OP

O. Petr in Архитектура данных
Alexey
Всем привет.  Подскажите, что можно использовать для персистентного хранения актуальных данных? Каждую секунду может приходить несколько десятков тысяч метрик от устройств. Требуется в любой момент времени получать последнюю метрику по какому-то конкретному устройству. Pg сейчас используется для этого,  но для этой задачи от не очень походит.
Greenplum? Будет легко перейти с пг, и данные перенести просто, и в кодесах можете ничего не менять - все будет так же работать (если захотите еще больше пропускной способности, то перепишите под gpfdist пайпы).
источник

OP

O. Petr in Архитектура данных
Ну все зависит от основных запросов все таки
источник

A

Alexey in Архитектура данных
Дмитрий
Ну или кластер кликхауза, но там вроде кворум коммита нет
КХ используем, но для других задач. ReplacingMergeTree конечно можно было бы использовать, но не уверен что хорошая идея из КХ тянуть по одной записи до 2-3к rps.
источник

Д

Дмитрий in Архитектура данных
Alexey
КХ используем, но для других задач. ReplacingMergeTree конечно можно было бы использовать, но не уверен что хорошая идея из КХ тянуть по одной записи до 2-3к rps.
вот как раз статейку нашел https://www.altinity.com/blog/clickhouse-for-time-series
источник