Size: a a a

Инжиниринг Данных

2018 December 15
Инжиниринг Данных
Доктор Джон — ответственный, рассудительный и мягкий человек. Он серьезно относится к своей работе, настолько серьезно, что в отличие от Тони строго разграничивает рабочее время и частную жизнь. У него докторская степень по электротехнике и электронике, полученная в Техасском университете в Остине. Так как он разбирается в компьютерах и знает статистику, его пригласили на работу в страховую компанию, где он занимается компьютерным моделированием, пользуясь в основном программами для «управления рисками», и эта работа ему очень нравится.  
Представьте, что я встретил Джона и Тони в баре. Понятно, что Джон и Тони вряд ли дышат одним и тем же воздухом, не говоря уж о том, чтобы зайти в один бар. Поэтому считайте все нижеописанное чистым мысленным экспериментом. Я задам каждому из них вопрос и сравню их ответы.  
Н.Н.Т.: Предположим, у нас имеется абсолютно «честная» (идеальной формы) монета, то есть вероятность выпадения орла или решки для нее одинакова. Я подбросил ее девяносто девять раз подряд, и каждый раз у меня выпадал орел. Какова вероятность того, что на сотый раз выпадет решка?
Доктор Джон: Тривиальный вопрос. Разумеется, пятьдесят процентов, если мы исходим из абсолютного равенства шансов и независимости отдельно взятого броска от всех прочих.
Н.Н.Т.: А ты что скажешь, Тони?
Жирный Тони: А я скажу, что не больше одного процента.
Н.Н.Т.: Но почему? Я же сказал, что монета абсолютно «честная», то есть распределение шансов — пятьдесят на пятьдесят.
Жирный Тони: Ты, блин, или пургу гонишь, или сам лох, если купился на эти «пятьдесят пра-ацентов». Монета утя порченая. Честной игрой тут и не пахнет. (Перевод: я скорее усомнюсь в идеальной форме монеты, чем поверю в то, что «честная» монета, подброшенная девяносто девять раз, ни разу не упала вверх решкой.)
Н.Н.Т.: А вот Доктор Джон говорит, пятьдесят процентов.
Жирный Тони (мне на ухо): Насмотрелся я еще в банке на этих ботанов. Медленно са-абражают, вот что. Слишком уж запрограммованные. Их обуть — как нечего делать.
А теперь вопрос: кого из этих двоих вы бы выбрали мэром Нью-Йорка (или города Улан-Батора в Монголии)? Доктор Джон всегда мыслит по схеме, причем уже заданной схеме; Жирный Тони почти всегда — не по схеме, то есть творчески.  
Определимся с терминами: те, кого я называю «ботаниками», — это вовсе не обязательно неряшливые, нелепые очкарики, у которых на поясе постоянно болтается КПК, как у копа — его пушка. «Ботаник» — это любой человек, чье мышление донельзя стиснуто рамками.  
Вы никогда не задумывались, почему так много круглых отличников ничего не добиваются в жизни, а те, кто в школе плелся в хвосте, гребут денежки, скупают бриллианты и ни в чем не знают отказа? А некоторые даже получают Нобелевскую премию в какой-нибудь прикладной области (например, в медицине). Конечно, здесь не обходится без удачи, но отчасти дело в выхолощенности и отвлеченности школьных знаний, которые мешают отличникам понимать, что происходит в реальной жизни. В тесте на коэффициент интеллекта (IQ) и в любых других академических играх (включая спортивное соревнование) Доктор Джон оставит далеко позади Жирного Тони. Но в любой «природной», житейской ситуации Жирный Тони обскачет Джона. Суть в том, что Тони, несмотря на его неотесанность, обладает двумя качествами: искренним интересом к тому, как устроена жизнь, и своеобразной эрудицией; на мой взгляд, он в большей степени человек науки (в истинном, а не общепринятом смысле этого слова), чем Доктор Джон.
Нам нужно глубоко, очень глубоко вникнуть в различие между ответами Тони и Джона: они отражают принципиальнейшее, на мой взгляд, расхождение между двумя разновидностями знания, которые мы назовем «платоническим» и «неплатоническим». Если коротко: люди, подобные Доктору Джону, могут спровоцировать появление Черного лебедя за пределами Среднестана, потому что их разум «закупорен». Это глобальная проблема, и одно из неприятнейших ее проявлений (я называю его игровой ошибкой) заключается в том, что неопределенность в реальной жизни имеет мало общего со стерильной неопределенностью, которую мы привыкли встречать в играх и на
источник
Инжиниринг Данных
экзаменах.
источник
2018 December 16
Инжиниринг Данных
#whitepaper  В приложение white paper от Looker - Модель Зрелости Аналитики. Looker выделяет 5  столпов зрелости аналитики: 1)Стратегия и Видение 2)Создание команды аналитики
3)Хранилище данных 4)Использование аналитики 5)Адоптация пользователей
источник
Инжиниринг Данных
источник
2018 December 17
Инжиниринг Данных
Machine Learning cheatsheets for Stanford's CS 229 https://github.com/afshinea/stanford-cs-229-machine-learning
источник
Инжиниринг Данных
Недавано обратил внимание на зарплаты в области ML, и они действительно выше, чем обычный BI/DWH и тп. Но я считая, что и ML и BI, существуют, чтобы приносить ценность бизнесу. ML сложнее, чем BI, и то и другое можно выучить, но нужно понимать зачем мы это делаем, главная цель это приносить ценность бизнесу. Можно с помощью Excel и Critical Thinking принести намного больше пользы, чем с дорогими тулами и сложными алгоритмами. Поэтому если, у вас вопрос, чтоже все таки учить и куда развиваться, то просто постарайтесь сфокусироваться на бизнес потребностях и быть полезными для бизнес лидеров, остальное приложиться.
источник
Инжиниринг Данных
#stat

Если вы (как и я) со статиской не очень дружны (у меня обычно было так, все понятно, все просто, но ничего не осталось в голове на выходе или очень скучно), и уже много раз пытались закрыть пробелы , но что-то у вас никак не складывалось, то вот отличное решение, это препод просто жжет!  Я прям восхищаюсь его талантом! http://www.apstatsguy.com/index.html

А если вы еще хотите и программирование и статистику подкачать, то тогда вам сюда - 10 Days Of Statistics Challenge - https://www.hackerrank.com/domains/tutorials/10-days-of-statistics
источник
2018 December 18
Инжиниринг Данных
#ml  Deep Learning course: lecture slides and lab notebooks https://m2dsupsdlclass.github.io/lectures-labs/
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Хочу поделиться еще одним интересным ресурсом - канал TechLead. Чувак работал SDE в крупных компаниях и теперь просто наслаждается жизнью:)

Например вот этот ролик - Why I left my job at Google https://www.youtube.com/watch?v=EcojyBV4QJ4 где он рассказывает, как все думают что работать в гугле (амазон и тп) это рай, по сути так и есть, но все относительно.

Вот другой ролик, который понравился 7 habbits for success - How I think differently than you and why I always win. Очень жизненно. https://www.youtube.com/watch?v=uVqoU2FzBiA&t=2s

Другие я не смотрел, но уверен, там много интересного.
источник
Инжиниринг Данных
А вот и новый конкурент Azure/AWS/GCP - https://us.alibabacloud.com/ Я думаю там можно попробовать бесплатно использовать ресурсы, и было бы интересно хостить там аналитику, у всех попсово AWS/Azure/GCP, а у вас будет не как у всех!
источник
2018 December 20
Инжиниринг Данных
#python

Иногда нам нужно выгрузить данные из Интренета, обычно они бывают в формате HTML или XML. Сегодня встретил библиотеку Python (кстати для Data Engineering (интеграция и трансформация данных) я рассматриваю как основной язык, а R это для меня язык дла статистики больше, но с помощью R и Python часто можно решить одинаковые задачи.)

Библиотека Beautiful Soup - парсит данные HTML и XML. Например, мы можешь задать SearchUrl и скрипт должен будет выкачать данные из результата поиска, распарсить результат и сохранить в CSV. Так же возможно подключаться к API и тогда мы можем получить JSON.

Я приложил пример, который выгружает данные с сайта поиска работы Dice.com (скрипт может устарел, но идея ясна) https://www.crummy.com/software/BeautifulSoup/

Скрипт выгружает данные по этому запросу https://www.dice.com/jobs/q-tableau-limit-30-startPage-1-limit-30-jobs?searchid=9787308578379 и перебирает страницы поиска [1:30]
источник
Инжиниринг Данных
источник
2018 December 28
Инжиниринг Данных
#правилопяти

Я сейчас читаю книгу «How To Measure Anything» Дугласа Хаббарда, в которой он углубляется в понятие измерений. Приводит много интересных приемов и методов. Кстати, он согласился сделать презентация для моего Amazon BI Tech Talk в январе, я выложу запись потом, да и все прошлые выпуски тоже загружу. Вот один из интересных и простых приемов – правило пяти.

Например, допустим, вы хотите решить, находится ли ваш офис в наиболее удобном месте для ваших сотрудников. Вы можете провести полный опрос всего офиса, чтобы получить консенсус по этому вопросу, но это будет отнимать много времени и средств и, вероятно, даст вам больше точности, которая вам нужна.

Предположим, вместо этого вы просто случайно выбрали пять человек. Есть и другие вопросы, которые вам необходимо учитывать в отношении «случайности», но сейчас давайте предположим, что вы просто выбираете пять сотрудников наугад. Позвоните этим людям и спросите их, как долго они обычно ездят на работу. Когда вы получите ответы от пяти человек, остановитесь. Предположим, что вы получаете значения 30, 60, 45, 80 и 60 минут. Возьмите самое высокое и самое низкое значения из выборки из пяти: 30 и 80. Существует вероятность 93,75%, что медиана всей совокупности работников находится между этими двумя числами. Это, по мнению Дугласа Хаббарда, является правилом пяти. Правило пяти простое, оно работает, и оно может быть доказано как статистически обоснованное для широкого круга проблем. При такой небольшой выборке диапазон может быть очень широким, но если он был значительно уже вашего предыдущего диапазона (то есть диапазона неизвестного), то он считается измерением.

Правило пяти оценивает медиану (среднюю точку) выборки. Половина выборки выше определенного значения, половина ниже. Есть вероятность 93,75%, что медиана выборки находится между наименьшим и наибольшим значениями в любой случайной выборке из пяти из этой популяции. Может показаться невозможным на 93,75% быть уверенным в чем-либо, основываясь на случайной выборке из пяти, но это работает.

Как работает правило пяти
Изменение случайного выбора значения выше медианы, по определению, составляет 50% - то же самое, что и бросок монеты, приводящий к «орлам» или решкам. Изменение случайного выбора пяти значений, которые оказываются выше среднего, похоже на подбрасывание монеты в орла пять раз подряд. Шанс получить орла пять раз подряд при случайном подбрасывании монеты составляет 1 к 32, или 3,125%. Вероятность того, что вы не получите все орлы или все решки, составляет 100% -3,125% x 2 (= 6,25%) или 93,75%. Следовательно, вероятность того, что по меньшей мере один из пяти бросков выше медианы и по меньшей мере один ниже медианы, составляет 93,75%.

https://www.amazon.com/How-Measure-Anything-Intangibles-Business/dp/1118539273/
источник
Инжиниринг Данных
Сегодня существует более 7000 инструментов цифрового маркетинга по сравнению со 150 инструментами в 2011 году.

Но почему цифровой маркетинг стал более эффективным, чем традиционный маркетинг?

В традиционном маркетинге широкая клиентская база нацелена на использование платной телевизионной, печатной и радиорекламы с целью донести продукты / услуги до клиентов. Этот метод не дает четкого представления о том, как измерить успех маркетинговых кампаний или как их оценивать, кроме как сидеть и ждать.

В цифровом маркетинге цель состоит в том, чтобы привлечь клиентов к продуктам / услугам путем повышения осведомленности и привлечения. И есть много точек соприкосновения, чтобы измерить и оценить маркетинговые кампании, чтобы они могли быть усовершенствованы, чтобы достигнуть правильной аудитории.

Существуют инструменты на основе подписки, которые берут от 10 до 500 долларов в месяц. Когда вы складываете стоимость всех этих инструментов, вы внезапно платите намного больше, чем ожидали.

Также стоит брать в расчет усилия, необходимые для отдельного управления всеми этими инструментами и каналами. Как насчет измерения пути клиента?

Единственное решение – это объедините всех своих данных в одной платформе и автоматизация.

Из хороших новостей, если вы смогли интегрироваться с одной из систем, то вы сможете и со всеми остальными. Как раз такие задачи решают инженеры данных.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
"Deep Learning" An MIT Press book.
источник
Инжиниринг Данных
В приложение книжка про Apache #Spark от DataBricks - "A Gentle Introduction". Spark стал неотъемлемой частью проектов по Big Data и ML. Вы можете скачать его к себе на компьютер и попробовать. У него есть SQL, Python, Shell, Java интерфейсы.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
А вот курс по Apache Spark от Edx, сейчас не досутпен почему-то
источник