Size: a a a

Data science [ru]

2020 May 19
Data science [ru]
Неполное понимание целевой функции

Аналитики хотят создать «лучшую» модель. Но красота в глазах видящего. Если вы не знаете, в чем заключается основная задача и целевая функция, не знаете, как модель себя ведёт, то вряд ли построите «лучшую» модель. Кроме того, задача может заключаться в улучшении бизнес-метрики, а не в построении математической функции.
Решение:  У большинства победителей Kaggle уходит много времени на понимание целевой функции и того, как с ней связаны модель и данные. Необходимо оптимизировать бизнес-метрику, сопоставьте её с соответствующей целевой функцией.
Пример: для оценки моделей классификации используется F-мера. Однажды была построена модель классификации, успех которой зависел от того, в каком проценте случаев она была правильной. Как выяснилось, F-мера вводит в заблуждение, потому что показывает, что модель была правильной примерно 60% времени, а на самом деле — только 40%.
источник
Data science [ru]
Программировать = зарабатывать.
И почему круто быть IT специалистом. 

Uno. Ты сможешь применить свои знания в любой сфере деятельности, ведь в развивающемся мире информационщики нужны везде. 

Dos. У твоего заработка не будет верхней границы, потому что число нулей прямо пропорционально твоим навыкам. 

Tres. Абсолютно каждый сможет научиться программированию и закрепиться в сфере IT. 

Подпишись на Life in code и прокачивай свой скилл вместе с нами. Здесь тебе расскажут азы и помогут протоптать дорогу в мир IT.

Сделай первый шаг вместе с Life in code
источник
2020 May 20
Data science [ru]
​​Мужчина в 55 лет стал программистом

Коллега искала программистов в ит отдел, и к ней на собеседование пришел кандидат. Мужчина 60 лет, имел 5-ти летний опыт работы, и сертификаты подтверждающие его квалификацию.
Собеседование прошло стандартно, мужчина был приятным, рассказал, что раньше работал сантехником, в принципе зарабатывал неплохо, но так как уже возраст и он стал неинтересен компаниям на рынке труда, он решил сменить специальность.
А сын у него программист и предложил отцу учится. Тот сначала отнекивался мол, старый уже и все такое, но сын оказался настойчивым и стал потихоньку отцу подкидывать всякие интересные статьи по этой тематике.
По итогу он решил попробовать, рассказывал что первое время вообще ничего не понимал и были мысли бросить это дело, но сын настоял и сам подключился к обучению отца.
По итогу через некоторое время он стал что то понимать и конечно появился интерес. А когда у него получился первый его проект, то он был вне себя от счастья.
В общем по итогу стал более усердно заниматься и потом устроился на работу, удаленную. и работал только по проектам, но уже есть работы, которые он может показать.
На самом деле я восхищаюсь такими людьми, и не важно на что человек переучился, главное, что даже в таком уважаемом возрасте он не считает себя стариком и двигается дальше. мне хочется верить, что я тоже такой же буду и не буду боятся что то менять в своей жизни, причем так кардинально.
И да, его взяли в штат, потому что он хорошо сделал тестовое задание, и прошел техническое интервью, сами ребята из ит отдела были в шоке, потому что ранее не сталкивались с таким кандидатами.
Начальник отдела доволен работой, и рассказывает, что когда у Павла Сергеевича, получается, то у него прям глаза горят. Такого он давно уже не видел, чтобы сотрудники были так увлечены работой и получали истинное удовольствие от работы..
источник
Data science [ru]
Это работает, но почему?
Аналитики хотят строить «модели». Они слышали, что xgboost и алгоритм “случайный лес” работают лучше всего и просто используют их. Они читают о глубоком обучении и думают, что, возможно, оно улучшит результат. Они бросают модели в проблему, не глядя на данные и не выдвигая гипотезы, какая модель лучше всего отражает особенности данных. Это сильно усложняет объяснение вашей работы хотя бы потому, что вы сами её не понимаете.
Решение: смотрите на данные! Поймите их характеристики и сформулируйте гипотезы о том, какие модели лучше всего их отражают.
Пример: посмотрев на данные на графике даже без запуска модели, вы увидите: x1 линейно связан с y, а x2 не имеет с ним сильно выраженной связи.
источник
Data science [ru]
источник
2020 May 21
Data science [ru]
​​Распространенные мифы, которых следует опасаться в Data Science и машинном обучении

Начинающих пользователей волнует, как стать специалистом по обработке и анализу данных; руководители задаются вопросом, насколько важное влияние оказывает Data Science на бизнес. Люди, работающие в этой сфере, не могут определиться, как себя называть: Data Scientist, Data Engineer или Data Analyst.
Читать...
источник
2020 May 22
Data science [ru]
Вы не смотрите на данные до интерпретации

Ещё одна подобная проблема: ваши результаты могут быть обусловлены выбросами и другими артефактами. Это особенно актуально для моделей, минимизирующих суммы квадратов. Даже без выбросов возникают проблемы с балансом, отброшенными или отсутствующими значениями и другими аномалиями реальных данных, которые вы не разбирали в университете.
Решение: повторяю, смотрите на данные — это очень важно! Поймите, как их природа влияет на результат.
Пример: с выбросами наклон x1 изменился с 0,906 до -0,375!
источник
Data science [ru]
источник
Data science [ru]
Сделки, аналитика, персоны, анонсы - в мире технологий ежедневно происходят интересные события. 

Не утонуть в море продуктов потребления поможет канал @topit_media. Только важное, интересное и актуальное. Про бизнес, производства, стартапы, игры и людей, которые за этим стоят.

Читаем, думаем, обсуждаем в чате.

Подписываемся -> https://t.me/topit_media
источник
2020 May 23
Data science [ru]
​​ИИ научился обнаруживать далекие галактики на нечетких снимках. Программа под названием Morpheus создана учеными из Калифорнийского университета, их работа опубликована в журнале Astrophysical Journal.
Морфология галактик от вращающихся дисковых галактик, подобных нашему Млечному пути, до аморфных эллиптических и сфероидальных галактик, может рассказать астрономам о том, как они образуются и развиваются со временем.
Крупномасштабные исследования, такие как проект LSST, который будет проводиться в обсерватории Вера-Рубина в Чили, позволят получить огромные объемы данных. В сутки LSST будет снимать более 800 панорамных снимков с помощью камеры с разрешением 3,2 млрд пикселей, захватывая все видимое небо Южного полушария два раза в неделю.
Хотя разрешение у телескопа будет довольно большим, снимки не будут очень четкими, — а на их ручной анализ уйдут десятилетия. Для автоматизации поиска объектов на снимках таких крупномасштабных исследований ученые создали ИИ Morpheus.
Для обучения нейросети ученые загрузили в нее данные крупномасштабного исследования 2015 года — снимки, на которых астрономы уже нашли более 10 тыс. галактик. Затем ИИ тренировался на поиск галактик на снимках, сделанных телескопом Hubble.
В результате система научилась анализировать объекты на снимках, отделяя их от фона и проверяя, соответствует ли их размер, форма и другие параметры предмету поиска — в данном случае далеким галактикам. Затем система сама проводит проверку на достоверность полученных данных.
источник
Data science [ru]
У вас нет простейшей базовой модели

Современные библиотеки ML упрощают задачу. Почти. Просто измените одну строчку кода и запускайте модель. И другую. И ещё одну. Метрики ошибок уменьшаются, ещё настройка. Великолепно — они снижаются ещё… При всей изощрённости модели вы можете забыть о глупом способе прогнозирования. Без этого примитивного теста у вас нет абсолютного показателя качества моделей, а они могут быть плохими в абсолютном выражении.
Решение: какой простейший способ, предсказывающий значения? Создайте модель, используя последнее известное значение, (скользящее) среднее или постоянную вроде 0. Сравните производительность с прогнозом какой-нибудь обезьяны!
Пример: с этим набором временных рядов первая модель должна быть лучше второй: среднеквадратичная ошибка (далее — СКО) 0,21 и 0,45. Но подождите! Принимая во внимание только последнее известное значение, СКО падает до 0,003!
ols CV mse 0.215rf CV mse 0.428last out-sample mse 0.003
источник
2020 May 24
Data science [ru]
Искусственный интеллект может делать личностные суждения на основе фотографий

Российские исследователи из Университета НИУ ВШЭ и Открытого гуманитарного и экономического университета продемонстрировали, что искусственный интеллект способен выводить личность человека из фотографий «селфи» лучше, чем люди-оценщики. Сознательность оказалась легче узнаваемой, чем другие четыре черты. Предсказания личности, основанные на женских лицах, оказались более надежными, чем предсказания для мужских лиц. Эта технология может быть использована для поиска «лучших совпадений» в сфере обслуживания клиентов, знакомства или онлайн-обучения.
Читать...
источник
Data science [ru]
 Неправильное тестирование вне выборки

Это может разрушить карьеру! Модель выглядела великолепно в исследованиях и разработках, но ужасно проявила себя на реальных данных. Такая модель приводит к очень плохим результатам, она может стоить компании миллионов. Это самая грубая ошибка из всех!
Решение: убедитесь, что работаете с моделью в реалистичных условиях и понимаете, когда она будет работать, а когда — нет.
Пример: внутри выборки случайный лес работает намного лучше линейной регрессии: СКО 0,048 в сравнении с 0,183, но вне выборки случайный лес намного хуже: 0,259 против 0,187. Случайный лес переобучен и провалится в реальных условиях!
in-samplerf mse 0.04 ols mse 0.183out-samplerf mse 0.261 ols mse 0.187
источник
2020 May 25
Data science [ru]
Приемы Python Pandas, которые сделают вашу работу более эффективной.

Pandas - это широко используемый пакет Python для структурированных данных. Существует много хороших учебных пособий на данную тематику, но здесь мы бы хотели раскрыть несколько интересных приемов, которые, вероятно, еще пока неизвестны читателю, но могут оказаться крайне полезными. 

 read_csv
Все знают эту команду. Но если данные, которые вы пытаетесь прочитать, слишком большие, попробуйте добавить...
источник
Data science [ru]
Предварительная обработка всего набора
Вы уже знаете, что мощная модель может переобучиться. Это означает, что она хорошо работает в выборке, но плохо вне выборки. То есть нужно знать об утечках обучающих данных в тестовые. Если не будете внимательны...
источник
2020 May 26
Data science [ru]
Перекрёстная проверка и панельный анализ

Вас учили, что перекрёстная проверка — всё, что нужно. Sklearn даже предоставляет несколько удобных функций для неё, поэтому вы думаете, что сделали всё. Но большинство методов перекрёстной проверки используют случайную выборку, а значит, можно получить смешение наборов с завышением производительности.
источник
Data science [ru]
​​Мастерская инноваций Liquid Studio компании Accenture в России представила голосового помощника «Аня» для онлайн-покупок в продуктовых магазинах.
Голосовой ассистент «Аня» позволит подбирать товары в продуктовых интернет-магазинах непосредственно для каждого пользователя, учитывая его предпочтения. Если на вопрос ассистента «Какие продукты вы хотите заказать?», будет озвучен ответ: «Мне как обычно», «Аня» добавит в корзину товары, наиболее часто приобретаемые пользователем.
источник
2020 May 27
Data science [ru]
​​Искусственный интеллект для оптимизированной мобильной связи

В то время как многие европейские государства в настоящее время создают 5-е поколение мобильной связи, ученые уже работают над ее оптимизацией. Хотя 5G намного превосходит своих предшественников, даже в самом последнем стандарте мобильной связи все еще есть возможности для улучшения: особенно в городских районах, где прямая видимость между излучателем и приемопередатчиком затруднена, радиосвязь еще не работает надежно. В рамках недавно запущенного в ЕС проекта ARIADNE одиннадцать европейских партнеров изучают, как можно разработать передовую системную архитектуру «за пределами 5G» с использованием высокочастотных полос и искусственного интеллекта...
источник
Data science [ru]
Какие данные доступны при принятии решения?
Когда вы запускаете модель в реальных условиях, она получает доступные именно в этот момент данные. Они могут отличаться от тех, что предполагалось использовать в обучении. Например, они опубликованы с задержкой, поэтому к моменту запуска другие входные данные изменились. Значит, вы делаете прогнозы с неверными данными или ваша истинная переменная y теперь ложна.
Решение: проведите пошаговое тестирование вне выборки. Если бы модель испытывалась в реальных условиях, то как бы выглядел обучающий набор? Какие данные имеются для прогнозирования? Кроме того, подумайте вот о чём: если бы вы действовали на основании прогноза, то какой результат был бы в момент принятия решения?
источник
2020 May 28
Data science [ru]
select_dtypes
Если предварительная обработка данных должна выполняться в Python, то эта команда сэкономит ваше время. После чтения из таблицы типами данных по умолчанию для каждого столбца могут быть bool, int64, float64, object, category, timedelta64 или datetime64. Вы можете сначала проверить распределение с помощью

df.dtypes.value_counts()
чтобы узнать все возможные типы данных вашего фрейма, затем используйте

df.select_dtypes(include=[‘float64’, ‘int64’])
чтобы выбрать субфрейм только с числовыми характеристиками.
источник