Size: a a a

Инжиниринг Данных

2018 December 04
Инжиниринг Данных
#скилы  Я бы выделил несколько областей:
1)Организация данных, то есть, прежде чем учить Data Science, BI, Python, поймите как данные хранятся в таблицах. Чем таблица отличается от кросс таблицы (pivot), и как из одной сделать другое.
2)Так как SQL и базы данных везде, то вам нужно уметь писать SQL на бумажке, вы видите таблицу(ы) и можете написать запрос на бумажке.  Еще нет лучшего ресурса чем этот сайт sql-ex.ru, которому лет наверно, как нам, всякие там codecademy и тп, отдыхают.  
3)Если вы знаете Excel, то это замечательно, теперь необходимо выбрать BI tool, можно любой, и разобраться как он работает, вообще не важно какой, можно Tableau или Qlik, все что захотите. Главное, это понять, что роль BI А:это замена Excel для автоматизации (больше автоматизации, меньше человеческого фактора) Б: это замена SQL на мышку, но ваше ценность не очень велика, если вы не понимаете как Таблицы из п.1 при помощи SQL п.2 создают красивую картинку в BI п.3.

Пункты 1-3 это базовые пункты для работы с данными. Главное, что нужно помнить, не учите конкретный инструмент, учите методы и подходы. Например, SQL синтаксис очень похож во всех продуктах. Все BI инструменты делают +/- одно и тоже. Знаю подход, вы освоите новый инструмент очень быстро, так как сейчас есть материалы по любому вопросу и все бесплатно. Что уж там, можно MBA обучиться бесплатно.
источник
2018 December 05
Инжиниринг Данных
Лари Элисон ругается на Амазон, что тот отказался от базы данных Оракл и отрицает, что Амазон заменил Оракл. Амазон использовала Оракл для OLTP системы и для Хранилища Данных. К сожалению, Оракл больше не смог обеспечивать производительность при росте Амазон, что привело к сбоям в работе сайта и в работе Хранилища данных.
Я считаю, что эра Oracle как хранилища данных уже прошла. Когда 20 лет назад, Амазон выбрал Oracle, то это была #1 база данных. А Лари молодец, настоящий лидер, который идет вперед, несмотря ни на что.
https://youtu.be/xrzMYL901AQ
источник
2018 December 06
Инжиниринг Данных
#целина2019

Есть ли у вас цель на следующий год? Осуществили ли вы цели на это год? Прочитали достаточно книг? Когда я был в Москве, у меня была одна цель, жить у океана и работать в лучшей компании Google, Facebook, Amazon. Я рад, что эти цели достигнуты, и рад, что наконец у меня появились новые цели. Это год был простой и успешной с точки зрения основной работы, но очень тяжелый с точки зрения расстановки приоритетов, было потрачено много сил не туда, но был получен колоссальный опыт. Теперь я спокоен, у меня есть следущая большая цель, как и до этого.

В Амазон “Think Big” это ключевой атрибут успешности, поэтому ваши цели должны быть BIG, я мне кажется, что когда у нас есть цель, вселенная нам помогает и мысли визуализируются, очень часто были ситуации, когда не знаешь, что делать, но как-то само все организовывается в лучшем виде.

Я точно знаю, возможно все, как пример, моя фотография с моей первой работы фрезеровщика, ГКПНЦ им Хруничева, где я работал с 2008 по 2010. Так что все возможно. Это так же, как в истории, когда мужчина съел САМОЛЕТ, как он это сделал? Ел по маленьким кусочками. https://en.wikipedia.org/wiki/Michel_Lotito
источник
Инжиниринг Данных
Моя первая профессия 2008-2010 на ГКНПЦ им Хруничева.
источник
2018 December 08
Инжиниринг Данных
#datalake

11 декабря будет вебинар посвященный созданию безопасного озера данных - " How to Build a Governed Data Lake".
http://info.matillion.com/governed-data-lake-webinar?utm_content=80814842&utm_medium=social&utm_source=rockyourdata
источник
Инжиниринг Данных
#modernanalyticssolution

Еще один пример современного аналитического решения, но уже на Google Cloud.

🍾BigQuery - аналитическое хранилище данных от Google
🍷Matillion ETL - облачный ETL
🕺🏻SuperQuery AI - углубленная аналтитика для Big Query
🥃Striim - загрузка данных в реальном времение в BigQuery
🤪Looker -  облачный BI. Кстати если хотите его попробовать или научиться, напишите мне, у меня есть инстанс свой, к сожалению в РФ не используется, но в Европе и Северной Америке такой же популярный как Tableau, так что может пригодиться
https://gweb-cloudblog-publish.appspot.com/products/data-analytics/finding-data-insights-faster-with-bigquery-and-gcp-marketplace-solutions/amp/?utm_content=80693342&utm_medium=social&utm_source=rockyourdata
источник
2018 December 11
Инжиниринг Данных
#bigdata

Ниже ссылка на запись AWS re:invent Big Data Analytics Architectural Patterns and Best Practices. (Примеры архитектуры для кейсов Big Data и лучшие практики).
https://www.youtube.com/watch?v=ovPheIbY7U8
Любая система аналитики представляет собой следующую систему: Сырые данные -> Запись в область хранения -> Обработка-> Запись в область хранения -> Аналитика -> Инсайты

Согласно презентации, современные технологии, в частности AWS и его аналоги, позволяют нам для каждого элемента системы выбрать наиболее подходящую технологию.  Выделяют следующие архитектурные принципы:
🙈Разделение системы – отдельно область хранения, отдельно вычислительные мощности
🙊Каждой задаче свой инструмент
🙉Максимально использовать managed или serverless сервисы, то есть сервисы, где нужна минимальная поддержка
🙊Храним все историю изменений и данных (озеро данных)
🙈Экономность – мы платим только за использование ресурса
🙉Машинное обучение – используем по возможности

В презентации хорошо видно можно подобрать подходящий инструмент в зависимости от задачи, типа данных, объема, частоты использования и других вводных.

Например, у меня сейчас есть задача, предоставить логи веб сервера маркетингу для аналитики. Вроде бы все просто, вот логи, и я могу взять один лог файл (access combined) и загрузить в Redshift. Время загрузки одного файла 1 минута. Но мне нужно загрузить 3 года данных, при этом за один день, у меня несколько тысяч файлов, то есть я только один день буду грузить несколько тысяч минут.

Поэтому мне необходимо воспользоваться системой класса Big Data, которая сможет быстро сделать эту работу. В данном случае это EMR (Hadoop)+Spark. Spark – задает логику для вычислительных мощностей Hadoop (EMR), а данные хранятся в S3 (файловое хранилище), то есть моя система разделена (хранение данных и вычислительные мощности). Это всего лишь один из вариантов решения задачи. Так же я могу использовать Redshift Spectrum и создать внешние таблицы поверх S3, или использовать serverless ETL AWS Glue, и загрузить и обработать файлы.

Выводов 3
1)Технологии так быстро развиваются, что мы не поспеваем за ними
2)Если у нас не получается решить задачу обычным способом с классическим ETL/DW, тогда мы можем смотреть в сторону Big Data решений
3)Cloud serverless and managed services are future for analytics.
источник
Инжиниринг Данных
#jobhunt

Хотел поделиться интересным лайфхаком, про оформление резюме. Цель резюме понятна. Мы хотим найти работу, желательно получше и где повыше зарплата. В любом случае, потолок нам не перепрыгнуть (мой пост про зп был про это).

Обычно на хорошие вакансии большой спрос, то есть нам надо привлечь к себе внимание. Так же, как и в бизнесе, мы боремся за внимание аудитории. Когда я искал работу за границей, то я решил сделать презентацию про себя в качестве cover letter.

Как и в аналитике, визуальная информация воспринимается лучше, поэтому я решил максимально визуализировать свой опыт (впервые я увидел такой подход в одном из TED Talk). Я много экспериментировал с презентациями. В итоге, стал использовать slideshare, чтобы отправлять ссылку на мою презентацию. В slideshare можно сделать приватную ссылку, и отслеживать веб аналитику по ним, кол-во кликов, страна, реферал и тп. То есть когда мы откликаемся на вакансию и отправляем ссылку на презентацию, мы сможешь отслеживать интерес к своей кандидатуре.

Другой важный элемент презентации, сделать ее интересной, почти как история (опять же из аналитики данных, нужно создавать истории, а не сухие цифры). Обычно опыт и резюме — это очень скучно. Из него не понятно какую ЦЕННОСТЬ вы несете для компании, поэтому нужно раскрыть тему своей ЦЕННОСТИ, попробовать указать проблемы индустрии, показать, что вы с ними знакомы и знаете решение.

Как минимум, ваше презентация может оказаться свежим глотком воздуха для уставших рекрутеров и значит, у вас больше шансов.

Кстати, когда я искал работу в Канаде из Москвы (я нашел ее), я создал себе канадский норме через IP телефонию и написал левый адрес в резюме, и так хотя бы просматривали мой опыт и со мной связались. Как результат, по приезду в Канаду, я выше на работу сразу. А обычно, вы будете искать работу несколько месяцев, просто все так медленно. Вот ссылка на презентацию https://www.slideshare.net/secret/JB5eHCWBW4i2fp
источник
Инжиниринг Данных
источник
Инжиниринг Данных
А это мое резюму, с которым я попал на собеседование в Амазон, может быть использовано как шаблон
источник
2018 December 12
Инжиниринг Данных
#datagovernace

Вы наверно слышали термин Data Governace? Мне до си сих пор не доконца понятно, что с этим делать и я стараюсь избегать этого, но особенно в больших организациях от этого не убежать и приходиться заниматься скучной, но важной работой.

Data Goverance - процесс управления данными, состоит из множество элементов, как безопасность данных, доступ к данным, качество данных, жизненный цикл данных и тп. Обычно этим занимается Enterprise Data Architect или Chief Data Officer, но если такого нет, то это падает на плечи BI/Data разработчиков.

Сегодня пришло приглашение на онлайн конференцию по этому топику, которое будет в январе, вот ссылка, кому интересно записываейтесь:

http://datagovernanceonline.com/
источник
Инжиниринг Данных
Data Governance Elements
источник
2018 December 13
Инжиниринг Данных
Нашел классный ресурс https://www.hackerrank.com. Вы решаете задачки и получаете балы. Можно выбрать языка программирования, можно выбрать разделы Databases, AI, Statistics. Есть различные tutorials. В общем оказался очень классный ресурс внутри. Чтобы решить задачку, нужно подумать. За задачки вы получаете балы, и можете посмотреть рейтинг. А работадатель, будет вас оценивать по вашим оценкам и скилам. Я порешаю SQL и Python задачки, а еще есть 10ти дневный курс по статистике, нужно освежить знания😎
источник
Инжиниринг Данных
#statistics Если у вас есть задачи находить инстайты в данных, не нужно все бросать и учить Data Science или Machine Learning, просто изучите статистические методы анализа данных, и попробойту применить их к вашим данным. Кстати в Амазон, если вы хотите работать в обслати ML, вам необходимо соответствовать уровню Software Development Engineer Level 1 (это программист примерно с 1-2 года опыта работы). Тоже самое и для Data Engineer, но bar ниже. https://www.khanacademy.org/math/statistics-probability
источник
Инжиниринг Данных
Случайно увидел статью от Nikita Shirobokov, я был на их презентации на матемаркетинг. Статья огонь!😭  https://www.facebook.com/acidcmo/posts/2068637749825734
источник
2018 December 14
Инжиниринг Данных
#dataengineering

В приложение книжка Apache NiFi for Dummies (то есть для чайников). Это open source продукт для интеграции и трансформации - ETL, с возможностью загрузки данные в реальном времени.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Интересная статья про Revolut (финтех стартап). Для меня была интерсна вторая часть, как Николай создает команды и управляет бизнесом.  https://vc.ru/finance/53106-nikolay-storonskiy-revolut-bank-slishkom-starinnoe-slovo-dlya-nas
источник
2018 December 15
Инжиниринг Данных
#черныйлебедь
Ссылка на книгу: http://indbooks.in/mirror4.ru/?page_id=156384  
Недавно я скидывал список книг, которые рекомендуются к прочтению в Амазон. Сейчас я читаю “Черный лебедь” и одна часть мне особенно понравилась:

Жирный Тони — это приятель Ниро, который жутко раздражает Евгению Краснову. Пожалуй, ему больше подошло бы прозвище Нескладный Тони, поскольку он не столько толст, сколько до того непропорционален, что никакая одежда на нем не сидит. Тони носит только вещи, которые специально для него кроятся в Риме и шьются на заказ, но все они смотрятся на нем так, будто он покупал их через интернет, без примерки. У него толстые руки, волосатые пальцы, золотой браслет, и от него вечно пахнет лакричными конфетками, которые он поглощает в промышленных количествах с тех пор, как бросил курить. Он не против наименования Жирный Тони, но предпочитает, разумеется, чтобы его называли просто Тони. Ниро же окрестил его Бруклинцем Тони за его акцент и бруклинский образ мышления, хотя Тони — один из тех процветающих дельцов, что перебрались в Нью-Джерси уже двадцать лет назад.
Тони — преуспевающий не-«ботаник» с веселым характером. У него куча друзей и приятелей. Кажется, что у него вообще нет проблем, кроме лишнего веса и вызванных этим подтруниваний семьи, дальних родственников и друзей, которые то и дело напоминают ему об опасности раннего инфаркта. Все средства тут бессильны: часто Тони отправляется в Аризону, в клинику для похудения, чтобы не есть, и даже теряет несколько фунтов, но снова набирает их уже по пути домой, в самолете, в кресле салона первого класса. Удивительно, что всегдашний строгий самоконтроль и самодисциплина изменяют Тони, когда дело касается обхвата его талии.
источник
Инжиниринг Данных
Начинал он в ранние восьмидесятые, клерком в отделе аккредитивов одного из нью-йоркских банков — перекладывал бумажки и занимался кое-какой рутинной работой. Потом ему поручили оформлять кредиты для малого бизнеса, и он понемногу разобрался в тонкостях игры: как устроен механизм финансирования в крупнейших банках, как работает их бюрократический аппарат и как это желательно отражать на бумаге. Тогда же он начал приобретать собственность обанкротившихся предприятий, скупая ее через финансовые учреждения. Тони верно подметил, что, покупая дом, проще иметь дело не с владельцем, а с банковским служащим, которому по большому счету все равно — ведь дом-то не его. Он быстро научился вести переговоры и маневрировать. Позже он также научился покупать и перепродавать автозаправки, беря кредиты в небольших районных банках.

У Тони есть замечательное обыкновение делать деньги без усилий, забавы ради, без напряжения, без офисной рутины, без совещаний, мешая сделки с частной жизнью. Девиз Тони: «Найти лоха». Ясно, что таковыми часто оказываются банки: «клеркам ни до чего нет дела». Найти лоха Тони умеет играючи: у него на них особый нюх. Пройдите с ним пару кварталов, болтая обо всем и ни о чем, и почувствуете, что узнали много нового о том, как устроен мир.

Тони обладает удивительной способностью доставать не внесенные в справочники номера телефонов, билеты на самолет в первом классе без доплаты или место на стоянке для вашей машины, даже если официально мест нет, — и все это благодаря нужным знакомствам и неотразимому обаянию.

А вот пример абсолютного антибруклинца, я назову его Доктор Джон. Он бывший инженер, а ныне работает статистиком в страховой компании. Это худой, жилистый человек, он ходит в очках и носит темный костюм. Живет он в Нью-Джерси, недалеко от Жирного Тони, но они, разумеется, почти никогда не встречаются. Тони не ездит на электричке (он водит «кадиллак», а иногда итальянский кабриолет жены — при этом шутит, что за ним не сразу разглядишь машину) и вообще не ездит на работу к определенному времени. Доктор Джон живет по графику, он предсказуем, как часы. По пути на Манхэттен он вдумчиво читает в вагоне газету, затем аккуратно складывает ее, чтобы продолжить чтение в обеденный перерыв. Если Тони обогащает владельцев ресторанов (не удивительно, что те встречают его лучезарной улыбкой и шумными объятиями), то Джон каждое утро педантично заворачивает свой сэндвич и упаковывает фруктовый салат в пластиковый контейнер. На нем тоже плохо сидит костюм, только Джон действительно заказал его по интернету.
источник