Size: a a a

Инжиниринг Данных

2019 April 24
Инжиниринг Данных
А так выглядит data lake by AWS. Все данных сохраняются в S3. Главный challenge это собрать метаданные, чтобы люди могли самостоятельно найти данные, которые им нужны.
источник
2019 April 25
Инжиниринг Данных
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
А вот ребята из Twitch, у них все по взрослому, 96 нод Redshift Cluster и 2.2 PB Parquet озеро данных в котором 1300 exernal tables. Главный challenge - Metadata
источник
Инжиниринг Данных
Они написали свои тулзы - Sheik, для трансформаций
источник
Инжиниринг Данных
Mode для exploration данных, аналог looker. Кстати про looker сказали, что хрень полная))
источник
Инжиниринг Данных
Табло у них тоже есть
источник
Инжиниринг Данных
Сейчас они активно внедряют Alation, как я понял очень крутой инструмент, собиарет метаданные из табло, хранилища и тп, собирает статистику по использованию таблиц, и вообще замечательный продукт. Такой же отзыв я слышал от ребят из GoDaddy.
источник
Инжиниринг Данных
Когда мы говорим про Cloud Analytics, важно знать типы сервисов IaaS, CaaS, PaaS, FaaS, Saas. На картинке с пиццей видно преимущество каждого сервиса.
источник
2019 April 26
Инжиниринг Данных
источник
2019 April 27
Инжиниринг Данных
Свежый отчет Gartner по Традиционным Хранилищам Данных.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Сегодня посещу Edmonton, а вот и презентация по Microsoft Azure Data Analytics https://www.slideshare.net/dimoobraznii/building-modern-data-platform-with-microsoft-azure
источник
Инжиниринг Данных
Хорошая визуализация разделения ответственности между провайдером и клиентом
источник
Инжиниринг Данных
источник
2019 April 29
Инжиниринг Данных
Вот это крутая штука -  бесплатная БД mysql - https://remotemysql.com/ всамый раз поучиться или собрать аналитику для своего проекта
источник
2019 April 30
Инжиниринг Данных
источник
Инжиниринг Данных
Немного не в тему, но очень классная реклама Канады https://youtu.be/xYJ1LtTvofU
источник
2019 May 01
Инжиниринг Данных
Хороший товарищ Тимур Мишин написал хорошую статью https://vc.ru/hr/66075-ne-vse-prodakt-menedzhery-odinakovo-polezny
источник