Size: a a a

Архитектура данных

2019 October 14

CO

Chern Oleksander in Архитектура данных
Paul Golubev
Поделитесь, кто в крупных компаниях - как у вас структуры поделены. Аналитика и хранилища отдельно/ параллельно, или хранилиша подчиняются аналитике, или еще как нибудь?
Всегда есть отдельные аналитические консоли, которые подчиняются аналитикам.
источник

Д

Дана in Архитектура данных
Denis Troyan
Я имею в виду, из каких решений выбираете?
Пока изучаю в целом какие есть базы данных в памяти и их применение. А после от заказчика будет задача на эту тему.
источник

DT

Denis Troyan in Архитектура данных
Как по мне, так рынок In-memory решений не очень большой, и вполне четко поделенный. VoltDB и MemSQL — для SQL и масштабируемости, платные. Tarantool и Ignite — это больше платформы для распределенных lambda-вычислений + кэш, чем традиционные СУБД, в них нет SQL и совместимости с рыночными bi инструментами.  Всякие oracle, MySQL, mssql — это традиционные одномашинные СУБД, без масштабирования и со всякими ограничениями: например, MySQL in-memory не поддерживает row-level локи, насколько мне известно.
источник

DT

Denis Troyan in Архитектура данных
Буду рад услышать комментарии сообщества по теме выше
источник

OK

Oleg Kovalov in Архитектура данных
Couchbase еще можно добавить
источник

OK

Oleg Kovalov in Архитектура данных
опять же redis, aerospike и прочие (БД ведь понятие растяжимое)
источник

DT

Denis Troyan in Архитектура данных
Ещё можно добавить aerospike: с быстрым распределенным доступом на crud по ключу
источник

KS

Konstantin Sevastianov in Архитектура данных
у меня тема последней недели, если вам для аналитики, то потрогайте руками -  Exasol
источник

DT

Denis Troyan in Архитектура данных
Но аналитику на redis и aerospike строить не надо
источник

Д

Дана in Архитектура данных
Нас как раз таки интересует именно open source базы данных  в памяти. Поэтому взяла из всего ignite, aerospike, altibase, kognitio, hazelcast
источник

PG

Paul Golubev in Архитектура данных
А где в организационной структуре находится аналитика? Это сервисное подразделение, исследовательское или это департамент со своими целями и результатами?
источник

Д

Дана in Архитектура данных
Paul Golubev
А где в организационной структуре находится аналитика? Это сервисное подразделение, исследовательское или это департамент со своими целями и результатами?
Компания большая по идеи. Есть отдельный блок, который недавно объединилось в одно целое и занимается ИТ. В организационной структуре есть отдел, который поддерживает data management platform. Заказчиком является команда биг дата.
источник

CO

Chern Oleksander in Архитектура данных
Paul Golubev
А где в организационной структуре находится аналитика? Это сервисное подразделение, исследовательское или это департамент со своими целями и результатами?
Я в скольких компаниях не был, сам я аналитик данных/дата инженер , было так:
Админы это отдельный департамент информ технологий
Они контролят вход данных, память, доступу и тд.
А аналитики это ещё один отдельный департамент, где сами писали sql , процедуры, джобы триггеры, пакеты частично писали логику
источник

Д

Дана in Архитектура данных
Chern Oleksander
Я в скольких компаниях не был, сам я аналитик данных/дата инженер , было так:
Админы это отдельный департамент информ технологий
Они контролят вход данных, память, доступу и тд.
А аналитики это ещё один отдельный департамент, где сами писали sql , процедуры, джобы триггеры, пакеты частично писали логику
ПО сути почти также. Но вместе департамента - отделы. А уровень выше службы.
источник

PG

Paul Golubev in Архитектура данных
Пытаюсь сейчас понять роли. Есть такая роль CDO - тот кто топит за данные, чтобы они везде были правильные, доступные, чтобы архитектура была подходящая. Он в классике подчиняется CTO. В определении ibm напичвно, что CDO еще и за аналитику топить должен. Но так ли это на самом деле? Или есть человек  CAO, который берет аналитиков и DS за шкирку и развивает, задает культуру работы с принятием решений и так далее
источник

GK

Gennadiy Kruglov in Архитектура данных
Распределённые SQL-ные БД в памяти вряд-ли появятся в обозримом будущем, потому что мешают законы физики. Чтобы агрегировать данные нужно распределить запросы по узлам, а потом по сети собрать данные и что-то с ними сделать. А ещё нужно "поднять" данные на эти узлы и держать их консистентными
источник

GK

Gennadiy Kruglov in Архитектура данных
Скорее всего, в ближайшее время будет пересмотрена архитектура "традиционных" баз, потому что уже сейчас есть оперативная память с постоянным хранением ,которая медленнее всего в два раза чем обычная оператива и стоит разумно дороже чем ssd
источник

GK

Gennadiy Kruglov in Архитектура данных
Да, почему распределённые базы данных с поддержкой SQL есть, а таких же в памяти нет. Это потому, что "в памяти" про быстро, а распределённый SQL это медленно. Так что в определённом смысле делать такие базы, точнее накручивать SQL поверх существующих, бессмысленно, хоть и очень хочется
источник

GK

Gennadiy Kruglov in Архитектура данных
Гриды, ignite и hazelcast - они не про запросы, они про вычисления которые можно закодить, распределить и вычислить на наборах данных, которые предварительно загрузили в память. Всё остальное - не их прямое назначение. Они пытаются впилить SQL, потому что так хотят клиенты, которые не понимают как всё это работает
источник

GK

Gennadiy Kruglov in Архитектура данных
Ещё их почему-то используют для кеширования. Наверно есть смысл, хотя он не очевиден, ввиду текущей надёжности этих решений.
источник