Size: a a a

Архитектура данных

2019 July 05

CO

Chern Oleksander in Архитектура данных
Phil Delgyado
Реляционка плоха для аналитики.
А чем плоха? При реляционке чище данные получается
источник

PD

Phil Delgyado in Архитектура данных
В CH архив будет ещё компактнее, а подключать будет проще. Не надо хранить в CSV. И нет в c3 никакой магии
источник

PD

Phil Delgyado in Архитектура данных
Chern Oleksander
А чем плоха? При реляционке чище данные получается
Что значит 'чище'?
источник

PD

Phil Delgyado in Архитектура данных
Запросы с агрегацией по большим выборкам на реляционке' плохо идут. Широкие таблицы плохо получаются. Лучше или кубы или колонкоориентированные БД.
источник

CO

Chern Oleksander in Архитектура данных
Phil Delgyado
Что значит 'чище'?
Например у нас 20 игр, но от клиента может приходит одно и тоже название игры как [cs, counter-strike, cs 1.6] , и что б не отобрать нужно будет постоянно писать скрипты с такими названиями игр.
Если б будет етл процесс со справочниками, в котором можно будет писать эти название с полем один ко многим типо ["game":"cs", "client_game":{cs 1.6, counter-strike, cs}]
источник

CO

Chern Oleksander in Архитектура данных
Phil Delgyado
Запросы с агрегацией по большим выборкам на реляционке' плохо идут. Широкие таблицы плохо получаются. Лучше или кубы или колонкоориентированные БД.
Olap куб на рассмотрение, но реально всегда можно оптимизировать запрос с помощью индексов, партий
источник

CO

Chern Oleksander in Архитектура данных
В аналитики должно быть два класса, один который чуть ли не онлайн обрабатывает все // выгрузка срезов(шелф) раз в дегь
источник

CO

Chern Oleksander in Архитектура данных
Я не спорю, просто делюсь своей логикой для построения
источник

PD

Phil Delgyado in Архитектура данных
Chern Oleksander
Olap куб на рассмотрение, но реально всегда можно оптимизировать запрос с помощью индексов, партий
Нет, это не так. И аналитика - про произвольные запросы, а не про отдельные оптимизированные запросы. Потому и не оракл
источник

PD

Phil Delgyado in Архитектура данных
Chern Oleksander
Например у нас 20 игр, но от клиента может приходит одно и тоже название игры как [cs, counter-strike, cs 1.6] , и что б не отобрать нужно будет постоянно писать скрипты с такими названиями игр.
Если б будет етл процесс со справочниками, в котором можно будет писать эти название с полем один ко многим типо ["game":"cs", "client_game":{cs 1.6, counter-strike, cs}]
Это может быть etl, может быть просто логика загрузки, много вариантов
источник

PD

Phil Delgyado in Архитектура данных
Chern Oleksander
В аналитики должно быть два класса, один который чуть ли не онлайн обрабатывает все // выгрузка срезов(шелф) раз в дегь
Не понял. Какие данные ждут от аналитики, кто с ней работает?
источник

CO

Chern Oleksander in Архитектура данных
Phil Delgyado
Не понял. Какие данные ждут от аналитики, кто с ней работает?
Аналитики и работают, которые делают отчёты (data analyst/analyst bi) достаточно раз в день им обновить нужные таблицы и пусть себе строят отчёты.
А есть data scientists им бы лайф данные нужны для использования мл и АИ и прочей херни
источник

PD

Phil Delgyado in Архитектура данных
Ну, тогда Кафка тебе в помощь
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
Chern Oleksander
А что быстрее? Быстрее оракл ничего не видел )) 6лет опыта
смешно
источник

PD

Phil Delgyado in Архитектура данных
И на Кафке  etl строить
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
Phil Delgyado
Ну, тогда Кафка тебе в помощь
раз в день обновлять таблицы?
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
что за бред?
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
кафка нужна для стриминга и ESB
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
для батчей нужен совсем другой подход
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
я уж молчу про гемор разработки и доставки кода для etl на кафке
источник