Size: a a a

Инжиниринг Данных

2018 December 29
Инжиниринг Данных
#dataengineering

Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer  - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.

Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer.  Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.

На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer

PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)
источник
Инжиниринг Данных
BigData in 2018 - инфографика
источник
2018 December 31
Инжиниринг Данных
Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab
источник
2019 January 04
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2019 January 10
Инжиниринг Данных
источник
2019 January 11
Инжиниринг Данных
If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)
источник
2019 January 12
Инжиниринг Данных
Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
94 страницы про Spark - руководство для Инженера данных от databricks
источник
Инжиниринг Данных
Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.
источник
2019 January 14
Инжиниринг Данных
источник
2019 January 16
Инжиниринг Данных
23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации
источник
Инжиниринг Данных
Redshift vs BIgQuery ценовое сравнение https://statsbot.co/blog/bigquery-vs-redshift-pricing/
источник
2019 January 17
Инжиниринг Данных
💌 Вастрик.Инсайд 39

По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.

— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?

https://vas3k.ru/inside/39/
источник
2019 January 18
Инжиниринг Данных
#dataengineering

ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).

А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).

Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
источник
Инжиниринг Данных
#datawarehouse

Хорошая статья на medium, как строили Cloud DW в продуктовой компании
источник
2019 January 19
Инжиниринг Данных
Matillion прям сыпит сегодня интересными white papers. Еще одна - Data Analytics Platform. В терминологии можно совсем запутаться. Это теже яйца, только в профиль🙈. Интересно, что лучше покупают, Data Platform или Data Warehouse.
источник
2019 January 22
Инжиниринг Данных
Бесплатный вебинар по Tableau от Zen Master
источник
2019 January 23
Инжиниринг Данных
Каждый год Gartner публикует Magic Quadrant для различных технологий. Например, есть для BI, есть про ETL, есть про Data Platforms и тп. Раньше это было больше про Хранилища Данных, теперь сместилось к платформам, так как под разные задачи существуют разные решения (Например Redshift + Elastic Map Reduce - разные технологии и решают разные задачи, но служат для аналитики и доступны в AWS)

Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)

Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.
источник