Size: a a a

Data science [ru]

2021 April 11
Data science [ru]
Изучение data science c нуля: этапы и вехи
В соответствии с концепцией спирального подхода к обучению,  привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.
Полная статья
источник
2021 April 12
Data science [ru]
​​Потоки и многопоточность / для начинающих
Многопоточность очень ценится в кругу дата сайентистов, т.к. позволяет анализировать и обрабатывать огромные объёмы данных используя все возможные ресурсы вычислительной машины , тем самым сокарщая время обработки данных.
Про многопототчность есть прекрасная статья, где разъясняется эта тема на примере ЯП Python.
https://pythonru.com/uroki/potoki-i-mnogopotochnost-dlja-nachinajushhih
источник
2021 April 13
Data science [ru]
Топ-9 диаграмм для визуализации данных

Зачем нужна визуализация данных?
Люди лучше воспринимают и запоминают данные в визуальном формате. Информация становится привычнее и понятнее, если подать ее в виде красивых схем, графиков и диаграмм.
Данные визуализируются, чтобы в моменте получить представление о явлении или состоянии процесса, который мы анализируем. Визуализация данных позволяет нам сделать фотографию ситуации «здесь и сейчас», не погружаясь в цифры и таблицы.
Преобразование необработанной информации в графический формат помогает доступно объяснять сложные вещи для решения таких бизнес-задач, как анализ эффективности направлений деятельности, анализ динамики выполнения задач, анализ достижения целей, анализ ценообразования в разных сферах деятельности: маркетинг, продажи, производство. Успех визуализации напрямую зависит от правильности ее применения, а именно от выбора и грамотного использования типов графиков и диаграмм.

1. Круговая Диаграмма
Круговая диаграмма – это один из наиболее распространенных и простых способов графического представления количественных данных. Такие диаграммы легко считывать и воспринимать, потому что отношения частей от целого показаны на ней простым и наглядным образом. Круговые диаграммы идеально подходят для того, чтобы быстро сформировать представление о пропорциональном распределении данных. На нашем примере – распределение объемов выбросов CO2 в разрезе секторов экономики.
2. Столбиковая Диаграмма
Столбиковая диаграмма или гистограмма – еще один популярный способ визуализации данных для быстрого восприятия информации. Гистограммы преобразовывают набор данных в прямоугольные столбцы, высоты или длины которых пропорциональны величинам, которые они отображают. Такие диаграммы значительно упрощают сравнение сопоставимых данных одной категории в рамках ограниченного периода времени. Пример — изменение численности населения страны за конкретный период или на нашем скриншоте – динамика 3. 3. Линейный график
Как и столбиковые диаграммы, линейные графики помогают визуализировать данные в компактном и точном формате, что позволяет легко воспринимать информацию, отмечать тренды или соотношения показателей (при использовании нескольких линий). Линейные графики используются для отображения результирующих данных относительно непрерывной переменной – чаще всего времени. В этом типе визуализации необходимо правильное использование разных цветов, чтобы сделать анализ информации еще проще для пользователей. На нашем примере – линейный график, показывающий число прибывших и покинувших Арабские страны пассажиров с 2005 по 2018 гг.
Остальные 6 по ссылке...
источник
2021 April 14
Data science [ru]
Big Data: что это такое, как искать, хранить и использовать

https://telegra.ph/Big-Data-chto-ehto-takoe-kak-iskat-hranit-i-ispolzovat-03-22
источник
2021 April 15
Data science [ru]
Врач, рак и нейросеть. Как применяется искусственный интеллект в онкодиагностике

Статья.
источник
2021 April 16
Data science [ru]
Собеседование по Data Science: чего от вас ждут
[ Статья ]
источник
Data science [ru]
​​🚀 Если очень захотеть, можно и полететь в космос, и выучить английский. И если первое требует много времени и сил, то со вторым всё гораздо проще!

В честь Дня космонавтики с 16 по 19 апреля Премиум-доступ к Puzzle English (@puzzleng) дешевле на 66%🔥

Вы получите неограниченный доступ к тысячам упражнений по грамматике и аудированию, видеоурокам, играм, песням и книгам значительно дешевле обычной цены. Подойдёт и новичкам, и продвинутым.

Узнать больше о сервисе и получить доступ:
https://u.to/Z08-Gw
источник
2021 April 17
Data science [ru]
​​Методы сортировки данных. Алгоритмы поиска и сортировки
Алгоритмы сортировки данных широко используются в программировании для решения различных задач. В этой статье мы рассмотрим несколько основных алгоритмовосновных алгоритмов сортировки данных в массиве.
/ Статья /
источник
2021 April 18
Data science [ru]
MySQL и MongoDB — когда и что лучше использовать.

/ Статья /
источник
2021 April 19
Data science [ru]
​​Гистограммы. Что это? Как построить? Как представить данные? Как провести анализ?
/ СтатьяСтатья /
источник
2021 April 20
Data science [ru]
Подготовка данных в Data Science-проекте: рецепты для молодых хозяек
/ Статья /
источник
Data science [ru]
Как дата-саентисты помогают по-новому взглянуть на футбол, а нейросети пишут гороскопы и вызывают налоговые скандалы — читайте в апрельском Data Science-дайджесте от Нетологии.

https://netology.ru/blog/04-2021-data-science-daijest
источник
2021 April 21
Data science [ru]
Комплексная нейронная сеть на основе ряда Фурье от функции многих переменных
[ Статья ]
источник
Data science [ru]
Научитесь с помощью компьютерного зрения решать реальные задачи бизнеса! Если вы Data Scientist с опытом и хотите освоить новые технологии, ждем вас на онлайн-курсе «Computer Vision».

📍Справитесь ли вы с уровнем курса? Покажет вступительный тест.
Пройдите тестирование, чтобы:
● оценить свои навыки
● занять место на курсе по специальной цене
● получить доступ к демо-урокам курса

👉🏻Пройти тестирование: https://otus.pw/Ii51/
источник
2021 April 22
Data science [ru]
​​Чем искусственный интеллект отличается от машинного обучения?

*AI* Искусственный интеллект нацелен на создание художественной компьютерной системы, подобной людям, для решения сложных проблем.

*ML* позволяет машинам учиться на данных, чтобы они могли выдавать точный результат

*AI* В зависимости от возможностей ИИ можно разделить на 3 типа. Слабый ИИ, Общий ИИ и сильный ИИ.

*ML* ML делится на 3 типа: обучение с учителем, обучение без учителя и обучение с подкреплением.

*AI* Системы искусственного интеллекта заинтересованы в максимальном увеличении шкалы успеха.

*ML* Машинное обучение в основном связано с точностью и закономерностями.

*AI* ИИ позволяет машине имитировать поведение человека.

*ML* Машинное обучение - это разновидность искусственного интеллекта

*AI* В основном имеет дело со структурированными полуструктурированными и неструктурированными данными.

*ML* ML работает со структурированными и полуструктурированными данными.

*AI* Применение ИИ - это Siri, поддержка клиентов с помощью кэтботов, интеллектуальных гуманоидных роботов и т. Д.

*ML* Применением машинного обучения являются системы рекомендаций, алгоритмы поиска, предложения автоматической пометки друзей в Facebook и т. Д.
источник
Data science [ru]
На Открытом Уроке мы подробно разберем, что же такое платформы Оркестрации, какие решения есть сегодня на рынке и даже углубимся в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.

Демо-занятие является частью онлайн-курса «Экосистема Hadoop, Spark, Hive». Для вас это возможность попробовать курс, познакомиться с преподавателем и получить ценные навыки. Для регистрации пройдите вступительный тест https://otus.pw/eEGc/
источник
Data science [ru]
​​Тонкая настройка предварительно обученных трансформаторов в RNN
Microsoft + Deepmind + ...

Трансформеры - это текущая СОТА в языковом моделировании. Но они сопряжены со значительными вычислительными затратами, поскольку механизм внимания квадратично масштабируется по длине последовательности. Потребление памяти также линейно растет с увеличением длины последовательности. Это узкое место ограничивает использование крупномасштабных предварительно обученных моделей генерации, таких как GPT-3 или преобразователи изображений.

Недавно было предложено несколько эффективных вариантов трансформатора. Например, рекуррентный вариант линейной сложности (https://arxiv.org/abs/2006.16236) оказался хорошо подходящим для генерации авторегрессии. Он аппроксимирует внимание softmax с помощью рандомизированных или эвристических карт характеристик, но может быть трудно обучить или получить неоптимальную точность.

Эта работа преобразует предварительно обученный преобразователь в его эффективный рекуррентный аналог линейной сложности с изученной картой функций для повышения эффективности при сохранении точности. Для этого они заменяют softmax Внимание в готовом предварительно обученном трансформаторе на его рекуррентную альтернативу линейной сложности, а затем тонкую настройку.

➕ Плюсы:
+ Процесс точной настройки требует гораздо меньше времени графического процессора, чем обучение повторяющихся вариантов с нуля
+ Преобразование большого стандартного трансформатора в облегченную модель вывода без повторения всей процедуры обучения очень удобно во многих последующих приложениях.
источник
2021 April 23
Data science [ru]
Собеседование по Data Science: чего от вас ждут
[ Статья ]
источник
Data science [ru]
Как улучшить свои навыки в веб-разработке, фронтенде и вёрстке?

Просто подписаться на канал «Просто: разработка» и читать ценные статьи, а также авторские наработки от веб-разработчика с десятилетним опытом.

YouTube-канал с уроками, а также чат на тысячу человек — прилагаются.

Подписаться тут: t.me/prostorazrabotka
источник
2021 April 24
Data science [ru]
​​Диаграммы рассеяния

Диаграмма рассеяния лучше всего подходит для визуализации связи между двумя
спаренными множествами данных. Например, на рис. 3.7 показана связь между
числом друзей пользователя и числом минут, которые они проводят на веб-сайте
каждый день:
friends = [ 70, 65, 72, 63, 71, 64, 60, 64, 67)
minutes = [175, 170, 205, 120, 220, 130, 105, 145, 190)
labels = ['а', ·ь·, 'с', 'd', 'е', 'f'' 'g'' 'h', 'i']
# Друзья
# Минуты
# Метки
plt.scatter(friends, minutes)
# Назначить метку для каждой точки
for label, friend_count, minute_count in zip(labels, friends, minutes):
plt.annotate(label,
xy=(friend_count, minute_count), # Задать метку
xytext=(5, -5), # и немного сместить ее
textcoords='offset points')
plt.title("Чиcлo минут против числа друзей")
pl t. xlabel ( "Число друзей")
plt.ylabel("Чиcлo минут, проводимых на сайте ежедневно")
plt.show ()
источник