А так выглядит data lake by AWS. Все данных сохраняются в S3. Главный challenge это собрать метаданные, чтобы люди могли самостоятельно найти данные, которые им нужны.
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.
А вот ребята из Twitch, у них все по взрослому, 96 нод Redshift Cluster и 2.2 PB Parquet озеро данных в котором 1300 exernal tables. Главный challenge - Metadata
Сейчас они активно внедряют Alation, как я понял очень крутой инструмент, собиарет метаданные из табло, хранилища и тп, собирает статистику по использованию таблиц, и вообще замечательный продукт. Такой же отзыв я слышал от ребят из GoDaddy.