Size: a a a

Data science [ru]

2020 October 26
Data science [ru]
Какие продвинутые навыки стоит освоить Data Science специалистам?
27 октября в 20:00 (мск) приглашаем познакомиться с онлайн-курсом "Machine Learning. Продвинутый курс".

Преподаватель Дмитрий Сергеев представит программу, расскажет, как организована практика и ответит на ваши вопросы о карьере Data Science.
Вебинар предназначен для практикующих Data Science специалистов, желающих повысить свой профессиональный уровень до Middle/Senior. Интересно, как можно продвинуться в Data Science?
Тогда регистрируйтесь, чтобы не пропустить, и приходите: https://otus.pw/2tj0/
источник
Data science [ru]
​​Bracket Pair Colorizer 2
Это расширение позволяет идентифицировать совпадающие скобки по цвету. Пользователь может определить, какие токены должны соответствовать и какие цвета использовать.
Скриншот👇
источник
2020 October 27
Data science [ru]
Проверьте свои знания по data science.

Что такое жизненный цикл проекта в области data science?
источник
Data science [ru]
Функции, поддерживающие только именованные аргументы (kwargs)
#Python
Для того чтобы при использовании некоей функции сделать так, чтобы ей можно было бы передавать только именованные аргументы, можно поступить следующим образом:

def test(*, a, b):
 pass

test("value for a", "value for b") # TypeError: test() takes 0 positional arguments...
test(a="value", b="value 2") # А так - работает...

Это может быть полезно для того, чтобы улучшить понятность кода. Как видите, наша задача легко решается при помощи использования аргумента * перед списком именованных аргументов. Здесь, что вполне очевидно, можно использовать и позиционные аргументы — в том случае, если поместить их до аргумента *.
источник
2020 October 28
Data science [ru]
Новая востребованная профессия - онтоинженер

Развитие современных технологий влечет за собой появление новых профессий. Специальность онтоинженер является одной из них. Профессия молодая, но ее представители уже востребованы в различных сферах. Люди, которые решили выбрать это направление, являются великолепными лингвистами, программистами, разностороннее развитыми личностями, имеющими склонности к точным наукам. Профессия появилась на стыке программирования, лингвистики, информационных технологий, работать в этой сфере смогут люди, имеющие высшее образование.
источник
Data science [ru]
Создание объектов, поддерживающих выражение with
#Python#Python

Все знают о том, как, например, открыть файл, или, возможно, как установить блокировку с использованием оператора with. Но можно ли самостоятельно реализовать механизм управления блокировками? Да, это вполне реально. Протокол управления контекстом исполнения реализуется с использованием методов enter и exit:

class Connection:
 def __init__(self):
 ...

 def __enter__(self):
 # Инициализируем соединение...

 def __exit__(self, type, value, traceback):
 # Закрываем соединение...

with Connection() as c:
 # __enter__() executes
 ...
 # conn.__exit__() executes

Это — наиболее распространённый способ реализации возможностей менеджера контекста в Python, но то же самое можно сделать и проще:

from contextlib import contextmanager

@contextmanager
def tag(name):
 print(f"<{name}>")
 yield
 print(f"</{name}>")

with tag("h1"):
 print("This is Title.")

Здесь протокол управления контекстом реализован с использованием декоратора contextmanager. Первая часть функции tag (до yield) выполняется при входе в блок with. Затем выполняется сам этот блок, а после этого выполняется оставшаяся часть функции tag.
источник
2020 October 29
Data science [ru]
Для чего нужны списки в Python?
#Python#Python
Списки в Python — одна из 4 структур данных, предназначенных для работы с итерируемыми объектами. Представим, что нам нужно написать скрипт, который проверяет, является ли модель машины производства компании Tesla. Код будет выглядеть следующим образом:
# Объявим переменную, содержащую список всех моделей машин tesla_models = ['Model S', 'Model 3', 'Model X', 'Model Y'] # Название машины - это строка. Строки объявляются в двойных (") или одинарных (') кавычках # Проверем, производит ли Tesla модель AMG GT 4 door. содержащую список всех моделей машин print('AMG GT 4 door' in tesla_models) # Выведет False (Ложь). Эту модель производит Mercedes-Benz # А Model 3 – флагманская модель Tesla print('Model 3' in tesla_models) # Выведет True (Истина) # Значения регистрозависимы — Model Y не одно и то же, что и model y print('model y' in tesla_models) # Выведет False
источник
Data science [ru]
источник
Data science [ru]
Что изображено на этом ⬆️графике? Выберете верное утверждение.

1 января 2017 года у продукта было чуть больше 5 миллионов пользователей. - 77
👍👍👍👍👍👍👍👍 83%
3 марта 2015 года у продукта было менее 1 миллиона пользователей. - 5
👍 5%
Отметка в 15 миллионов пользователей продукта будет достигнута к 1 января 2018 года. - 11
👍👍 12%
👥 93 человека уже проголосовало.
источник
2020 October 30
Data science [ru]
Анализ данных социальных сетей: подходы и методы

Социальные сети являются хорошим источником данных и важно уметь эффективно работать с этим данными. Рассмотрим несколько особенностей и подходов работы с данными социальных сетей.
Стоит отметить, что существует отдельное направление — Social Mining. Это применение методов и алгоритмов data mining для поиска и обнаружения зависимостей и знаний в социальных сетях (или тех областях знаний, где данные можно представить в виде сетей/графов). Области применения достаточно широки.
В общем случае, почти все практические задачи анализа данных соцсетей сводятся к следующим базовым:
1. Анализ инфопотоков, структуры и метрик социальной сети
2. Анализ тональности сообщений (эмоциональной окраски)
3. Анализ и извлечение тем (о чем пишут в соцсетях)
4. Анализ изображений
Часто встречаются и комбинации этих задач.
источник
Data science [ru]
​​Метод главных компонент (PCA)/SVD/SVD
#algorithms#algorithms
Это один из основных алгоритмов машинного обучения. Позволяет уменьшить размерность данных, потеряв наименьшее количество информации. Применяется во многих областях, таких как распознавание объектов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных.
SVD — это способ вычисления упорядоченных компонентов.
источник
2020 October 31
Data science [ru]
Хочешь освоить востребованную и высокооплачиваемую IT-профессию? Попробуй свои силы в Java-разработке!

Пройди бесплатный интенсив и напиши свою первую программу: https://clc.am/j96EpA.

За три дня ты:

👉 получишь базовые навыки программирования на Java;
👉 поймёшь на практике, как устроена работа Java-разработчика;
👉 напишешь программу для мониторинга активности рабочего стола.

Полезными навыками и лайфхаками поделится разработчик с опытом более 15 лет, директор центра SymbioWay, который находит IT-специалистов для крупнейших компаний России — Даниил Пилипенко.

🎁 Всех участников ждут подарки от издательства «МИФ», а авторов трёх лучших проектов — гранты на обучение в онлайн-университете Skillbox!
источник
Data science [ru]
​​Метод наименьших квадратов
#algorithms
Метод наименьших квадратов — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных.
Он может использоваться для "решения" переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, а также для аппроксимации точечных значений некоторой функции.
Используйте этот алгоритм, чтобы соответствовать простым кривым/регрессии.
Полезные ссылки:
numpy.linalg.lstsq
numpy.polyfit
источник
Data science [ru]
Сингулярность, которую мы заслужили

Технологическая сингулярность, которую Вернор Виндж предсказывал в 1993 году, происходит прямо сейчас. В своём манифесте Виндж предложил тогда несколько вероятных сценариев того, как этот фазовый переход разумности землян мог бы состояться где-то между 2005 и 2030 годами, но подчеркнул, что детальные прогнозы тут невозможны. Они и не сбылись. Что сбывается сейчас, так это главная идея: когда в игру войдут созданные нами сверхчеловеческие существа – мы быстро и навсегда утратим не только возможность управлять событиями, но даже принципиальную способность понять новые правила.
источник
2020 November 01
Data science [ru]
​​Снижение размерности
#algorithms
Этот термин легко понять интуитивно. Есть набор данных и нужно уменьшить количество его измерений. В Data Science под этим подразумевается количество переменных признаков.
Куб представляет набор данных, имеет три измерения и содержит 1000 точек. Конечно, при современных вычислительных мощностях таким количеством никого не напугать, но когда это число начнёт расти, могут появиться проблемы. Однако, если посмотреть на данные с двухмерной точки зрения, можно увидеть, что с такого угла легко разделить все цвета. С помощью снижения размерности можно спроецировать 3D-данные на 2D-плоскость, что эффективно снижает количество точек для вычисления до 100 единиц.
Снизить размерность также можно с помощью отбрасывания маловажных признаков. Например, после изучения набора данных было выявлено, что из 10 признаков 7 сильно коррелируют с выходом, а остальные 3 — нет. Значит, 3 этих признака не стоят траты ресурсов на них и их можно исключить без вреда для выхода.
Наиболее распространённый метод для снижения размерности — метод главных компонент (PCA), который создаёт векторные представления признаков, тем самым показывая их связь с выходом. PCA можно использовать для обоих вариантов снижения размерности, описанных выше.
источник
Data science [ru]
Смешные собеседования: истории ИТ-рекрутеров

Невольный свидетель
Проводила собеседование с кандидатом по видеосвязи. На заднем плане был виден очень большой полированный шкаф времен СССР. Общение шло хорошо, кандидат был очень вежливый. В какой-то момент в комнату зашел дедуля, открыл шкаф и начал перебирать в нём вещи. Кандидат при этом ничего не мог сделать и продолжил рассказывать о своем опыте как ни в чем не бывало. Дедуля достал вещи, посмотрел в экран и удалился. По итогу интервью знала не только чего хочет мой кандидат, но и видела всё, что у них в шкафу хранится, а также частично познакомилась с его семьей.
источник
2020 November 02
Data science [ru]
ИИ научился легко решать сложнейшие уравнения, которые описывают устройство Вселенной

Дифференциальные уравнения в частных производных встречаются в самых разных аспектах физико-математического моделирования. Они позволяют рассчитывать состояния весьма сложных систем, но их решение всегда было ресурсоемкой задачей. Благодаря специально созданной нейросети этот процесс значительно ускорился и мощности суперкомпьютеров можно будет перенаправить на другие важные задачи.

Большинство студентов технических специальностей встречают уравнения математической физики (УМФ), или дифференциальные уравнения в частных производных, лишь однажды. Пройдя их во время обучения, об этом сложном, но мощном инструменте почти всегда забывают. И лишь некоторые инженеры используют их регулярно. Речь идет, например, о моделировании воздушных потоков в аэродинамике, описании движения тектонических плит, расчете положения планет или метеорологии.
источник
Data science [ru]
​​Статистические характеристики

Статистические характеристики — наверное, наиболее часто используемая статистическая концепция в Data Science. Обычно это первое, что применяют при исследовании набора данных. В эту концепцию входят такие понятия как отклонение, дисперсия, среднее значение, медиана, процентили и многие другие. Их довольно легко понять и реализовать в коде.
Линия посередине — это медианное значение данных. Медиану используют вместо среднего значения по той причине, что она более устойчива к аномальным значениям в данных. Первый квартиль — это 25 процентиль, т.е. 25% значений в данных находятся ниже этого значения. Третий квартиль — это 75 процентиль, т.е. 75% значений в данных находятся ниже этого значения. Минимальное и максимальное значения отражают нижнюю и верхнюю границы диапазона данных.
Ящик с усами прекрасно демонстрирует, что мы можем сделать с основными статистическими характеристиками:
Когда этот ящик короткий, то можно сделать вывод, что большинство значений в данных похожи, так как много значений находится на небольшом расстоянии друг от друга.
Когда ящик длинный, то можно сделать обратный вывод: большинство значений отличаются друг от друга.
Если медианное значение ближе к низу, то можно сказать, что большая часть данных имеет более низкие значения. Если оно ближе к верху, то большая часть данных имеет более высокие значения. По сути, если медиана не находится по центру ящика, то это показатель того, что данные неравномерны.
Усы очень длинные? Значит, данные имеют высокое стандартное отклонение и дисперсию, т.е. значения сильно разбросаны и отличаются друг от друга. Если усы длинные только с одной стороны ящика, то, возможно, данные заметно изменяются только в одном направлении.
Используйте статистические характеристики для быстрой, но при этом информативной оценки ваших данных.
источник
2020 November 03
Data science [ru]
​​Ограниченная линейная регрессия
#algorithms
Метод наименьших квадратов может смутить выбросами, ложными полями и т. д.
Нужны ограничения, чтобы уменьшить дисперсию линии, которую мы помещаем в набор данных. Правильное решение состоит в том, чтобы соответствовать модели линейной регрессии, которая гарантирует, что веса не будут вести себя “плохо”.
Модели могут иметь норму L1 (LASSO) или L2 (Ridge Regression) или обе (elastic regression).
Используйте этот алгоритм для соответствия линиям регрессии с ограничениями, избегая переопределения.
Полезная ссылка:
Обобщенные линейные модели  (eng)
Вводные гайды:
Ридж-регрессия  (eng)
LASSO регрессия  (eng)
источник
Data science [ru]
Как начинающему Data Engineer повысить свою эффективность? Начните прокачивать навыки 12 ноября с демо-занятия «Знакомство с Ni-Fi». Вместе с Егором Матешуком вы рассмотрите Ni-Fi и роль data ingestion инструментов в целом при построении систем обработки данных. Решите простую задачку по построению пайплайна для загрузки файлов в хранилище данных с использованием Ni-Fi.

Демо-урок входит в программу онлайн-курса «Data Engineer». Для записи на вебинар, пройдите вступительный тест https://otus.pw/1DbX/
источник