Size: a a a

2020 July 23

CN

Cybernetic Neuron in Data Engineers
и надо их отслеживать
источник

CN

Cybernetic Neuron in Data Engineers
и стоки тоже
источник

А

Алексей in Data Engineers
дата, товар, бренд, категория, цена - что то тут будет меняться задним числом?
источник

CN

Cybernetic Neuron in Data Engineers
это будет постоянно меняться и надо это всё записывать
источник

YI

Yukari I in Data Engineers
Cybernetic Neuron
А не лопнет озу от in memory db?
Храните в памяти горячие данные, в хайв холодные, и будет хорошо. Хотя и нужно глубже погрузиться в вашу задачу, чтобы дать более дельный совет, осмелюсь предположить, что игнат вам очень поможет
источник

CN

Cybernetic Neuron in Data Engineers
Yukari I
Храните в памяти горячие данные, в хайв холодные, и будет хорошо. Хотя и нужно глубже погрузиться в вашу задачу, чтобы дать более дельный совет, осмелюсь предположить, что игнат вам очень поможет
А как определить температуру данных?)
У меня вроде бы все горячие, нужно по всей структуре запрос делать
источник

YI

Yukari I in Data Engineers
Cybernetic Neuron
А как определить температуру данных?)
У меня вроде бы все горячие, нужно по всей структуре запрос делать
Если по всем, тогда придется держать их в памяти
источник

YI

Yukari I in Data Engineers
И совет с широкой фактовой таблицей может быть очень полезен
источник

CN

Cybernetic Neuron in Data Engineers
Yukari I
Если по всем, тогда придется держать их в памяти
Ну, на нашей тачке максимум 100 гигов, если облако не получится у начальства отпросить
источник

CN

Cybernetic Neuron in Data Engineers
Yukari I
И совет с широкой фактовой таблицей может быть очень полезен
Можно подробнее?
источник

CN

Cybernetic Neuron in Data Engineers
Статейки там
источник

AT

Al T in Data Engineers
Анатолий Клюса
Давно уже на него смотрю... но пока только смотрю)
Но у меня есть еще один кейс, там нужно не лопатить изредка, а часто и быстро точечно получать конкретный блоб-объект по его id.
Возможно, кликхаус для этого будет норм...
кликхаус тут не подойдет. если по ID то любая key-value db
источник

А

Алексей in Data Engineers
Cybernetic Neuron
Статейки там
backendconf.ru
Александр Токарев на BackendConf 2019
Во всех ключевых облачных хранилищах данных существует множество средств миграций из in-house-хранилищ, однако, как мне кажется, путь к успеху в миграции в "облака" состоит не только из уменьшения затрат на обслуживание инфраструктуры, но и повышения производительности путём изменения модели данных под особенности каждого из хранилищ.Я попробую доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.Мы обсудим, почему модели данных одного и того же хранилища должны быть разными между Redshift и Big Query, как эффективно использовать возможности данных СУБД.Большинство советов по работе с данными СУБД сводится к "увеличьте размер кластера" или "добавьте sort key". Порой это уменьшает скорость выполнения запросов при гораздо более высокой стоимости владения.Будет продемонстрировано несколько примеров с production, как с уменьшением мощности кластера…
источник

AT

Al T in Data Engineers
Cybernetic Neuron
Привет, есть сервис для получения отчётов, с малым RPS, но с большой выборкой (счёт на миллиарды записей), думаю над кликхаус, Google BigQuery или Neo4j, что посоветуете?
если большая выборка то бигквери будет очень дорого в итоге
источник

AT

Al T in Data Engineers
Cybernetic Neuron
джоины точно будут
есть еще memSQL и прочие HTAP, у них получше с джойнами
источник

CN

Cybernetic Neuron in Data Engineers
Al T
есть еще memSQL и прочие HTAP, у них получше с джойнами
Вот я смотрю в сторону графовых, там со связями всё супер + не надо в памяти всё держать
источник

CN

Cybernetic Neuron in Data Engineers
Cybernetic Neuron
Ну, на нашей тачке максимум 100 гигов, если облако не получится у начальства отпросить
ресурсы сильно ограничены
источник

АК

Анатолий Клюса... in Data Engineers
Al T
кликхаус тут не подойдет. если по ID то любая key-value db
Спс. Я так и предполагал. HBase наверное... Опять же, есть в клаудере, которую я и так уже начал юзать...
источник

DZ

Dmitry Zuev in Data Engineers
Cybernetic Neuron
Вот я смотрю в сторону графовых, там со связями всё супер + не надо в памяти всё держать
Только они для других задач.
источник

AT

Al T in Data Engineers
Анатолий Клюса
Спс. Я так и предполагал. HBase наверное... Опять же, есть в клаудере, которую я и так уже начал юзать...
да, hbase, cassandra, dynamoDB, scylla... имя им легион
источник