Size: a a a

Инжиниринг Данных

2019 January 23
Инжиниринг Данных
Magic Quadrant for Data Management Solutions for Analytics
источник
2019 January 24
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2019 January 27
Инжиниринг Данных
Если бы Тони Роббинс выступил на айтишной конференции...(попалось на FB)
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Berkeley STAT-157 (Introduction to Deep Learning)
источник
2019 January 30
Инжиниринг Данных
Все привет! Если вы любите смотреть как кто-нибудь сравнивает вендоров аналитического софта, то вот вам еще один отчет - Analytical Data Infrastructure Market Study 2019, причем очень свежий. От Dresner Advisory Services. В нем сравниваю так называемые Инфраструктуры для Аналитики Данных (Analytical Data Infrastructure), надеюсь я правильно перевел. Все больше и больше терминов, которые по сути про одно и тоже.

Инфраструктуры для Аналитики Данных - набор технологических компонентов для интеграция, моделирования, управления, хранения и доступа к данным, которые служат для аналитических нужд (пользователей, приложений, инструментов).

Они опросили 5000 человек из разных организация и разных стран, построили много графиков в экселе во всех возможных разрезах. И потом продали вендорам, у меня вот копия Snowflake. Мне это напоминает учет вальдшнепа в Московской Области, я помогал отцу, мне нужно было в деревне вечером 2 час стоять и слушать/смотреть вальдшнепов и заносить информацию о птицах в анкету. На основе этой выборки можно было сказать о миграции вальдшнепа. Отец даже диссертацию по этой теме написал. А тут вместо вальдшнепов у нас вендоры с их решениями для Хранилищ данных. Интересно, пользователей тоже в лесу ловили, или как Gartner предлагали в замен 20$ карточку Амазон (я уже наверно на 200 долларов поотвечал, не могу сказать что честно, времени не было в вопросы вчитываться), вот так и работает индустрия.

По результатам:
💋83% ответили, что им необходимы такие штуки для Отчетности, 43% за data science и 35% просто попробовать хотять и посмотреть как работает.
💋Цена решения не очень важна, как и корпоративные стандарты
💋60% считают, что лучше иметь одно решения (впринципе очевидно, но вот, например, HootSuite использует Snowflake и BigQuery, то есть просто каждый департамент пилит, что-то свое, а компания теряет деньги)
💋Большинство предпочитают облачное решение
💋30% хотят гибридное решение (cloud and on-premise)
💋Из-за большого разнообразия решений и возможностей, которые они предоставляют, очень сложно выбрать стратегию для руководителей
источник
Инжиниринг Данных
Преимущества Облачных Вычислений (AWS слайд)
источник
2019 January 31
Инжиниринг Данных
Cool news from frineds: Clutch’s research team chose over 300 companies as the highest-performing service providers in Canada, based on the quality of their client feedback, industry leadership, services offered, clientele, and market presence.
источник
2019 February 01
Инжиниринг Данных
Еще одна бесплатная онлайн конференция по аналитике - Analytics Best Practices, не понятно что там будет конкретно, но упоминают: Strategy, Culture, Tactics, Results.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
#dataengineering

Еще парочку интересных постов от компании UPSIDE. Первый про миграцию из Redshift на Snowflake. Пока мы тут обсуждаем преимущетсва облака, ребята уже наигрались в Redshift, и мигрировали на Snowflake в качестве Хранилища Данных и Matillion как основной ETL. При этом они сэкономили 70% от стоимсти Redshift за счета распределенный архитектуры (хранение данных и вычисления). Если вы строити хранилище в облаке, стоит задуматься. Если есть вопросы по облачным аналитическим решениям, могу подсказать.

Другой пост от CTO, о том, как они немного устали от AWS. Несмотря на то, что AWS лидеры, не все так хорошо и не всегда работает для конкретных случаем.
источник
Инжиниринг Данных
#dataengineering

Еще интерсный пост из этой же серии. Ребята из Fivetran (ETL продукт), проверили производительнось Redshift, Snowflake, Azure DW, Presto, BigQuery и сравнили скорость и цены.

Я вот недавно узнал, про becnhmark для аналитических решений, оказывается есть стандартизированные базы данных разных размеров под разные кейсы. Существуют не комеерческая организация TPC, которая появилась в 80х и они начинали с ATM машин и транзакционных систем. Если вам интересно, можете почитать больше по ссылке.

Для аналитических решений используется база TPC-DS. Например, в Snowflake она уже доступно по умолчанию, в Redshift я не видел, но мне кажется, вам придется загружать самим. В TPC есть уже эти базы под различные БД (Oracle, Teradata, ..)

В нашем примере ипользовали данные 2х размеров: 100Гб(400 млн строк) и 1ТБ(4 млр строк). Так жы использовали сложные запросы от TPC (без кеширования).

В принципе у них получось все почти одинаково, так как они хотели просто пропиариться. Мне бы было интересно такой тест провести, но это требует времени на подготовку и будет стоить денег за ресурсы.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
#aws

Если вы собираетесь работь с AWS или уже работаете, то вот несколько полезных whitepapers:
Architecting for the Cloud - отличный документ, даже если вы будет работать с отечественными облачными решениями.
Overview ofAmazon Web Services - основные сервисы AWS.
How AWS Pricing Works - про цены.
источник
Инжиниринг Данных
источник
2019 February 05
Инжиниринг Данных
Еще одна книжка наконец написана (Здесь не только Tableau Desktop, но и Snowflake, EMR, Redsdhift, Matillion, Tableau Server on Linux, Tableau Prep, Tableau API) https://www.packtpub.com/big-data-and-business-intelligence/tableau-2019x-cookbook
источник
2019 February 09
Инжиниринг Данных
источник