Телеграмм чат группы data_architect страница 79

Ключевая мысль. В озере данных данные уже собраны в RAW слое, хранятся в HDFS, в больших файлах, которые легко вычитывать большими порциями параллельно, причём близко к вычислениям

источник

00:49пожаловаться #8

Gennadiy Kruglov in Архитектура данных

Если хранить данные в объектных хранилищах, кликхаухе, эластике и где-то ещё, их нужно будет собирать, причём по сети, причём массово (select *)

источник

00:51пожаловаться #9

Gennadiy Kruglov in Архитектура данных

А в Serving слое хранятся агрегаты, которые уже рассчитаны на больших данных, и эти агрегаты тоже могут быть довольно большие

источник

00:54пожаловаться #10

rubonz in Архитектура данных

Gennadiy Kruglov

Лично я связываю падение клаудеры не со смертью хадупа. Банально лопнул пузырь

Очень хорошая статья по теме
https://www.jesse-anderson.com/2019/06/i-come-not-to-bury-cloudera-but-to-praise-it/

источник

01:03пожаловаться #11

Gennadiy Kruglov in Архитектура данных

Можно в 3-х словах суть?

источник

01:03пожаловаться #12

rubonz in Архитектура данных

имхо, клиенты хотят тупо сервис по подписке, желательно без программеров, клоудера не может этого дать

источник

01:06пожаловаться #13

Gennadiy Kruglov in Архитектура данных

Есть ещё конечно общая проблема извлечения валуя из больших данных. А если говорить откровенно, то монетизации данных. Но технологии то тут ни при чём. Просто спал хайп, ну и прекрасно.

источник

01:07пожаловаться #14

Gennadiy Kruglov in Архитектура данных

rubonz

имхо, клиенты хотят тупо сервис по подписке, желательно без программеров, клоудера не может этого дать

Пусть и дальше хотят.

источник

01:09пожаловаться #15

Gennadiy Kruglov in Архитектура данных

Типа, мы не уверены что извлечём валуй из наших данных, кластера онпрем покупать стрёмно, дайте подписку

источник

01:14пожаловаться #16

Eugene in Архитектура данных

Gennadiy Kruglov

Пусть и дальше хотят.

Ты в поезде обратно что ли поехал, чтобы ещё написать что-нить? :) Кстати, спасибо за написанное. Мы тоже недавно обсуждали Hadoop и сходу ничего не придумали альтернативного для батч обработки больших файлов

источник

01:14пожаловаться #17

Gennadiy Kruglov in Архитектура данных

Eugene

Я уже в метро))

источник

01:14пожаловаться #18

Gennadiy Kruglov in Архитектура данных

Но озёра данных часто не про монетизацию данных. Иногда сразу понятно, что кластера точно будут утилизированы вдолгую

источник

01:16пожаловаться #19

Gennadiy Kruglov in Архитектура данных

Точнее, далеко не только про монетизацию даты напрямую

источник

01:17пожаловаться #20