Телеграмм чат группы hadoopusers страница 2563

Храните в памяти горячие данные, в хайв холодные, и будет хорошо. Хотя и нужно глубже погрузиться в вашу задачу, чтобы дать более дельный совет, осмелюсь предположить, что игнат вам очень поможет

источник

11:35пожаловаться #5

Cybernetic Neuron in Data Engineers

Yukari I

А как определить температуру данных?)
У меня вроде бы все горячие, нужно по всей структуре запрос делать

источник

11:40пожаловаться #6

Yukari I in Data Engineers

Cybernetic Neuron

А как определить температуру данных?)
У меня вроде бы все горячие, нужно по всей структуре запрос делать

Если по всем, тогда придется держать их в памяти

источник

11:41пожаловаться #7

Yukari I in Data Engineers

И совет с широкой фактовой таблицей может быть очень полезен

источник

11:41пожаловаться #8

Cybernetic Neuron in Data Engineers

Yukari I

Если по всем, тогда придется держать их в памяти

Ну, на нашей тачке максимум 100 гигов, если облако не получится у начальства отпросить

источник

11:41пожаловаться #9

Cybernetic Neuron in Data Engineers

Yukari I

И совет с широкой фактовой таблицей может быть очень полезен

Можно подробнее?

источник

11:42пожаловаться #10

Cybernetic Neuron in Data Engineers

Статейки там

источник

11:42пожаловаться #11

Al T in Data Engineers

Анатолий Клюса

Давно уже на него смотрю... но пока только смотрю)
Но у меня есть еще один кейс, там нужно не лопатить изредка, а часто и быстро точечно получать конкретный блоб-объект по его id.
Возможно, кликхаус для этого будет норм...

кликхаус тут не подойдет. если по ID то любая key-value db

источник

11:43пожаловаться #12

Алексей in Data Engineers

Cybernetic Neuron

Статейки там

http://backendconf.ru/moscow-rit/2019/abstracts/5256

backendconf.ru

Александр Токарев на BackendConf 2019

Во всех ключевых облачных хранилищах данных существует множество средств миграций из in-house-хранилищ, однако, как мне кажется, путь к успеху в миграции в "облака" состоит не только из уменьшения затрат на обслуживание инфраструктуры, но и повышения производительности путём изменения модели данных под особенности каждого из хранилищ.Я попробую доказать, что копирование традиционных star- и snowflake-схем не позволяет получить максимальную производительность в таких хранилищах как Amazon Redshift и Google Big Query, но и приводит к дополнительным финансовым затратам.Мы обсудим, почему модели данных одного и того же хранилища должны быть разными между Redshift и Big Query, как эффективно использовать возможности данных СУБД.Большинство советов по работе с данными СУБД сводится к "увеличьте размер кластера" или "добавьте sort key". Порой это уменьшает скорость выполнения запросов при гораздо более высокой стоимости владения.Будет продемонстрировано несколько примеров с production, как с уменьшением мощности кластера…

источник

11:44пожаловаться #13

Al T in Data Engineers

Cybernetic Neuron

Привет, есть сервис для получения отчётов, с малым RPS, но с большой выборкой (счёт на миллиарды записей), думаю над кликхаус, Google BigQuery или Neo4j, что посоветуете?

если большая выборка то бигквери будет очень дорого в итоге

источник

11:44пожаловаться #14

Al T in Data Engineers

Cybernetic Neuron

джоины точно будут

есть еще memSQL и прочие HTAP, у них получше с джойнами

источник

11:46пожаловаться #15

Cybernetic Neuron in Data Engineers

Al T

есть еще memSQL и прочие HTAP, у них получше с джойнами