Size: a a a

Data science [ru]

2020 November 03
Data science [ru]
Что такое функция?

На уроках математики вы не только слышали о ней, но и рисовали. Выберете подходящее в рамках курса определение.

Это способ показать зависимость одной величины от другой — мы можем показать это формулой или отразить на графике. - 97
👍👍👍👍👍👍👍👍 88%
Это результат математической операции. - 5
👍 5%
Это то, что выполняет какой-то орган или аппарат. - 8
👍👍 7%
👥 110 человек уже проголосовало.
источник
Data science [ru]
​​⬆️⬆️⬆️ Правильный ответ ⬆️⬆️⬆️

Функция показывает зависимость одной переменной от другой. Слева можно увидеть пример записи функции: y = x2.
источник
2020 November 04
Data science [ru]
​​ИИ создал симуляцию Вселенной, но ученые не понимают, как это получилось
Астрофизики решили использовать самый современной искусственный интеллект (ИИ) для того, чтобы создать трехмерную модель участка Вселенной. Проект был назван Deep Density Displacement Model (D3M) и исследователи не понимают, как ИИ смог создать нечто подобное.
Астрофизиков поразило не только то, что D3M получилась фантастически детализированной и точной моделью, но и то, что ИИ справился с задачей за 30 миллисекунд! Как машина смогла научиться этому? Откуда такие точные познания устройства нашей Вселенной?
Естественно, ИИ получил теоретические основы, было проведено 8000 тестовых симуляций, но машина регулярно справлялась с задачами существенно лучше, чем от нее ожидали. В итоге ИИ проанализировал действующие физические законы, просчитал перемещение частиц за всю историю времени и выдал результат.
"Это все равно что учить ИИ распознавать по снимкам кошек и собак, а потом узнать, что машина умеет распознавать слонов. То, что произошло при создании симуляции Вселенной, пока остается большой загадкой", - сказала астрофизик Ширли Хо, ведущий автор исследования.
ИИ за 30 миллисекунд создал детальнейшую модель Вселенной, которая была заключена в куб с гранями по 600 миллионов световых лет. Если бы астрофизики применяли классические технологии, то на аналогичную операцию ушло не менее 300 часов.
Никто из авторов исследования не может объяснить увиденное и у них в самом деле нет даже предположений. Настал тот день, когда искусственный интеллект в миллиарды раз превзошел ум человека?
источник
Data science [ru]
Этого там точно не было!

Все известные миру сюжетные повороты уже точно были в сериале Симпсоны — ещё бы, за 30-то лет.

А на бесплатном марафоне по Data Science от Нетологии вы сможете создать совершенно новый, невиданный до этого сюжетный поворот и даже целый сценарий при помощи искусственного интеллекта.

В программе марафона — 3 эпизода, каждый из которых приблизит вас к созданию своего варианта культового сериала с помощью SQL, Python и Machine Learning.

Запишитесь на марафон и научите машину творчеству ↓
http://netolo.gy/fWw
источник
Data science [ru]
Мама, я сделал Хабр!

Мне 17 лет и я уже несколько месяцев делаю клон мобильного приложения Хабра, назвав его соответствующе, модно, со стилем и пафосной точкой в конце — habra. Получилось реализовать несколько фич, которых пока нет ни в официальном приложении из плей маркета, ни на самом сайте.

Пост для любителей мобильных приложений.
Автор приложения прислушивается к комментариям и идет на диалог.
По мнению редакции Data science [ru] отличное начинание.
#Нереклама
источник
2020 November 05
Data science [ru]
Помните ли вы, как возводить числа в степень?

🤓 Это знание пригодится, когда вы будете знакомиться с функцией потерь и договариваться, по какому показателю оценивать качество работы алгоритма. Помните ли вы, как возводить числа в степень? Сколько будет квадрат от (– 5) (минус пяти)?

5 - 4
👍 2%
25 - 159
👍👍👍👍👍👍👍👍 95%
- 25 - 4
👍 2%
👥 167 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
                 2️⃣5️⃣
Квадрат отрицательного числа — это положительное число. Именно это свойство помогает «отлавливать» ошибки алгоритма на этапе обучения и тестирования.
источник
Data science [ru]
Примеры, которые заставляют задуматься о том, что восстание машин уже началось 

В 2015 году пьяный японец избил первого в мире «эмоционального» робота Pepper за неудачную шутку. Отпинал до состояния, когда робот не смог двигаться, и все из-за одной шутки, сказанной в отделении банка.

Казалось бы, после этого Сара Коннор должна бросить связку оружия в багажник и поехать как можно дальше от человечества. Но проблема в том, что ИИ уже давно бунтует. Хотя ученые пытаются нас успокоить и утверждают, что машины с творческим интеллектом, близким человеческому, появятся в течение ближайших 50 лет. И вообще, очень маловероятно, что искусственный интеллект непременно разделит человеческие ценности.

Но столь же сомнительно, что он придаст какое-либо значение своей собственной жизни. Однако отдельные достижения уверяют нас совершенно в обратном. Да и разве можно верить ученым? Скорее всего, у нас, людей, есть повод для беспокойства.
источник
2020 November 06
Data science [ru]
8 бесплатных курсов для дата-аналитиков

Знание Python и R
Курс «Изучение Python»
Автор: Codecademy.
Язык: английский.
Уровень: начальный.
Онлайн-платформа Codecademy предлагает интерактивное изучение Python: на одной странице объясняется краткая теоретическая информация и интерпретатор кода. Курс рассчитан на начинающих пользователей и рассказывает о базовых командах языка программирования.
Курс предоставляется условно-бесплатно: получить доступ к контрольным заданиям и работе над проектами можно только по платной подписке. Бесплатные уроки подойдут, чтобы изучить простые конструкции и разобраться в синтаксисе языка.

Самоучитель «Python 3 для начинающих»
Автор: Дмитрий Мусин.
Язык: русский.
Уровень: начальный.
Самоучитель Мусина — одна из крупных баз знаний про Python на русском языке. На сайте находится информация о модулях, материалы про анализ данных с помощью библиотеки Pandas, теоретическая информация, примеры задач и полезные ссылки. Также на основе опубликованных статей подготовлен самоучитель в PDF-формате.

Курс «Программирование на Python»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: начальный.
На курсе преподаватели знакомят с базовыми понятиями программирования. В качестве домашних заданий предлагается большой объём практических задач — все решения проверяет автоматическая система. При этом преподаватели не дают индивидуальные консультации. В курс также вошли задачи повышенной сложности, которые необязательно решать, чтобы пройти курс.

Курс «Python: основы и применение»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: средний.
Требования: базовые навыки программирования на Python или других языках программирования.
Студенты курса изучают фундаментальные основы языка: как интерпретатор исполняет код, где он хранит переменные и данные, как определяются собственные типы данных и функции. Курс рассчитан на пользователей, которые знакомы с базовыми навыками программирования.
Проверочные задачи в курсе разделены на два типа: на закрепление материала и поиск способов для применения изученных навыков. Решения проверяются системой.

Курс «Основы программирования на Python»
Автор: Udacity.
Язык: английский.
Уровень: начальный.
Слушатели изучают три базовые темы: использование функций, создание и использование классов. Последний урок посвящён созданию собственных проектов. Обучение строится на работе над мини-проектами и изучении важных концепций. Курс нацелен на тех, кто хочет стать программистом или планирует с ними работать.

Курс «Основы программирования на R»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: начальный.
В этом курсе преподаватели рассматривают R как язык программирования, а не как инструмент решения конкретных задач. Слушатели изучают основные типы данных и универсальные семантические правила, а также темы, связанные с анализом и обработкой данных.

Курс «Анализ данных в R»
Автор: Институт биоинформатики.
Язык: русский.
Уровень: средний.
Требования: базовые знания в области статистики.
Преподаватели объясняют основные этапы анализа данных с помощью языка R. Студентам расскажут об основных этапах статистического анализа R, считывании и предварительной обработке данных, применении основных статистических методов и визуализации результатов.

Курс «Программирование на R в науке о данных»
Автор: Microsoft.
Язык: английский.
Уровень: средний.
Требования: курс ориентирован на аналитиков, которым необходимо знание R для работы над статистическими проектами.
Курс разработан Microsoft вместе с Техническим университетом Дании. В курсе рассказывают про основы R, учат читать и записывать данные, работать с ними и получать результаты. Также преподаватели объясняют, как выполнять интеллектуальную аналитику с помощью R и визуализировать данные.
источник
Data science [ru]
Хочешь узнать, как разрабатывается искусственный интеллект? Участвуй в интенсиве по Data Science и познакомься с основами анализа данных и технологиями машинного обучения.

Ссылка для бесплатной регистрации: 🔜 https://clc.am/HFL4Jg.

✔️ Ты изучишь основы Python.
✔️ Научишься грамотно выгружать и визуализировать данные.
✔️ Создашь модель машинного обучения, предсказывающую курс доллара.
✔️ Узнаешь, как оценивать качество модели.

💣 Попробуй себя в роли специалиста по Data Science на мастер-классах от разработчика с 17-летним опытом Михаила Овчинникова и убедись, что эта профессия вполне доступна!
источник
Data science [ru]
В книге рассмотрены наиболее распространенные и серьезные ошибки кодирования и программные "дыры", которые используются хакерами для взлома программных продуктов. Рассмотрено большинство языков и платформ программирования, каждая глава посвящена отдельному типу уязвимости ("смертному греху"), угрожающему безопасности компьютерных систем и программ.
источник
2020 November 07
Data science [ru]
​​Распределения вероятностей

Вероятность можно определить как процентный шанс того, что какое-то событие произойдёт. В Data Science вероятность находится в пределах от 0 до 1, где 0 означает, что событие точно не произойдёт, а 1 — что точно произойдёт. Распределение вероятностей — это функция, которая отображает вероятности всех возможных значений. Рассмотрим основные виды распределений.

Равномерное распределение 
Самое базовое из представленных здесь. У него есть единственное значение, которое встречается только в определённом диапазоне, а всё, что находится за его пределами, равно нулю. Это распределение можно воспринимать как признак категориальной переменной с двумя категориями: 0 и значением. У такой переменной могут быть и другие значения, отличные от нуля, но это не мешает изобразить её в виде функции, состоящей из нескольких равномерных распределений.
источник
Data science [ru]
​​Метод k-средних
#algorithms
Всеми любимый неконтролируемый алгоритм кластеризации. Учитывая набор данных в виде векторов, мы можем создавать кластеры точек на основе расстояний между ними. Это один из алгоритмов машинного обучения, который последовательно перемещает центры кластеров, а затем группирует точки с каждым центром кластера. Входные данные – количество кластеров, которые должны быть созданы, и количество итераций.

Полезная ссылка:
sklearn.cluster.KMeans
Вводные гайды:
Видео по кластеризации
Введение в кластеризацию
источник
2020 November 08
Data science [ru]
​​Игорь Ашманов: появление мыслящих роботов невозможно не только в ближайшем будущем, но вообще никогда

ПРИЗРАК ФУТУРИЗМА
Небывалое развитие IT-технологий последних лет создает ощущение, что вот-вот искусственный интеллект, описанный фантастами, станет реальностью. О том, куда может зайти прогресс, мы беседуем с разработчиком виртуальных собеседников-инфов, директором компании «Ашманов и партнеры» Игорем Ашмановым.
— Игорь, сейчас много говорят о так называемых искусственных нейронных сетях, на основе которых будут созданы боты, обладающие полноценным искусственным интеллектом. Как вы это прокомментируете?
— Давайте начнем с определения понятия «искусственный интеллект» (ИИ). В принципе само это словосочетание представляет собой искаженный перевод английского термина artificial intelligence, «искусственное понимание». Ученые под ИИ подразумевают не умение думать, а умение распознавать и адекватно реагировать. В случае виртуальных собеседников (инфов) — адекватно отвечать. Например, интернет-поисковик, выполняющий запросы пользователя,— классический пример ИИ. В сознании же жертв голливудских фильмов ИИ представляется неким андроидом, способным самостоятельно мыслить и осознавать себя. И именно на жертв подобной подмены понятий рассчитаны всякие шаманские спекуляции на терминах вроде «искусственная нейронная сеть». В данном случае это просто один из методов хранения и обработки данных, и «нейроны» здесь не подразумевают никакой связи с биологией. И какими бы мощными ни становились компьютеры и программное обеспечение, все равно робот никогда не сможет не только чувствовать, как человек, но и самостоятельно мыслить. А теории о том, что на каком-то этапе критическая масса железа и ПО будет превышена и тогда в компьютере заведется некий интеллект,— чистое шаманство. На мой взгляд, появление мыслящих роботов невозможно не только в ближайшем будущем, но вообще никогда. В каком-то смысле это уже философско-религиозный вопрос: мозг как физическое сочетание тканей рождает сознание или нематериальное сознание использует мозг, равно как руки и ноги? Если верно первое, то теоретически можно создать искусственным путем стопроцентный аналог мозга, на который снизойдет сознание. Но лично я в это не верю.
— Возможно ли, что по мере развития технологий будут созданы виртуальные собеседники — пусть не мыслящие самостоятельно, но по разговору практически неотличимые от людей?
— А это вполне возможно. Можно будет считать, что ИИ создан (в научном, а не шаманском понимании), когда человек не сможет по разговору отличить сетевого инфа от живого собеседника. Этот барьер называется тестом Тьюринга. И пока не создан виртуальный собеседник, способный его пройти. Другое дело, что тестируют инфов эксперты — во-первых, готовые, что их собеседник окажется виртуальным, а во-вторых, обладающие навыками выведения инфов на чистую воду. Для обычных же пользователей соцсетей тест Тьюринга уже можно считать пройденным: на уровне общения в сети хорошо проработанные инфы остаются нераспознанными. Только надо понимать, что инф не общается, а лишь имитирует общение. Например, когда вы не знаете, что сказать, то для поддержания разговора произносите какую-нибудь проходную фразу, некий энкод (двусмысленное высказывание, основанное на использовании речевых клише.— «Деньги»), который заставляет собеседника сменить тему. Инфы поступают точно так же. В них заложено ядро разумных микродиалогов вполне человеческого уровня и построен коммуникативный алгоритм постоянного сведения разговора к этому ядру. Только и всего.

Источник: www.kommersant.ru
источник
Data science [ru]
Функции потерь (Loss Functions)
Для большинства именно с этого начинается знакомство с Data Science — функции потерь помогают создавать рекомендательные и прогнозные системы, определять тенденции в массивах данных.
Допустим, у вас есть модель линейной регрессии, которой вы предлагаете исходные данные. Полученный результат вы сравниваете с образцом, чтобы определить, как далеко от реальности он лежит. Эта информация помогает вам оптимизировать функцию прогнозирования.
Как же подсчитать эту разницу? Для этого вы представляете эти данные в виде двух векторов и применяете к ним функцию потерь. Например, пусть ожидаемый прогноз — это вектор P, а ваши результаты — вектор E. Тогда P-E — это разница между данными, а длина этого третьего вектора и представляет собой величину ошибки.
источник
2020 November 09
Data science [ru]
​​Логистическая регрессия

Логистическая регрессия ограничена линейной регрессией с нелинейностью (в основном используется сигмоидальная функция или tanh) после применения весов, следовательно, ограничение выходов приближено к + / - классам (что равно 1 и 0 в случае сигмоида). Функции кросс-энтропийной потери оптимизированы с использованием метода градиентного спуска.
Примечание для начинающих: логистическая регрессия используется для классификации, а не регрессии. В целом, она схожа с однослойной нейронной сетью. Обучается с использованием методов оптимизации, таких как градиентный спуск или L-BFGS. NLP-разработчики часто используют её, называя “классификацией методом максимальной энтропии”.

На рисунку изображен сигмоид.

Используйте LR для обучения простых, но очень “крепких” классификаторов.
Полезная ссылка:
sklearn.linear_model.LogisticRegression
Вводный гайд:
Логистическая регрессия | классификация
источник
Data science [ru]
Какой параметр в HTML позволит открывать ссылки в новом окне браузера

target="_top" - 1
👍 1%
target="_parent" - 4
👍 3%
target="_blank" - 130
👍👍👍👍👍👍👍👍 92%
target="_self" - 7
👍 5%
👥 142 человека уже проголосовало.
источник
Data science [ru]
⬆️  Правильный ответ ⬆️

          target="_blank"
источник
2020 November 10
Data science [ru]
​​Книга «Карьера программиста» основана на опыте практического участия автора во множестве собеседований, проводимых лучшими компаниями. Это квинтэссенция сотен интервью со множеством кандидатов, результат ответов на тысячи вопросов, задаваемых кандидатами и интервьюерами в ведущих мировых корпорациях. Из тысяч возможных задач и вопросов в книгу были отобраны 189 наиболее интересных и значимых.

Шестое издание этого мирового бестселлера поможет вам наилучшим образом подготовиться к собеседованию при приеме на работу программистом или руководителем в крупную IT-организацию или перспективный стартап. Основную часть книги составляют ответы на технические вопросы и задания, которые обычно получают соискатели на собеседовании в таких компаниях, как Google, Microsoft, Apple, Amazon и других. Рассмотрены типичные ошибки, которые допускают кандидаты, а также эффективные методики поготовки к собеседованию. Используя материал этой книги, вы с легкостью подготовитесь к устройству на работу в Google, Microsoft или любую другую ведущую IT-компанию.
источник
Data science [ru]
Вокенизация — новый прорыв в области здравого смысла ИИ?
Вокенизация — новый метод на основе неконтролируемого обучения, который позволяет масштабировать современные небольшие визуально-языковые наборы данных, подобные MS COCO, до размеров английской Википедии, то есть миллиардов записей.
В сущности гигантские языковые модели учатся видеть мир.
источник