Size: a a a

Data science [ru]

2021 February 27
Data science [ru]
источник
Data science [ru]
источник
Data science [ru]
Выходные (кластерные) элементы сети Кохонена обычно представляют расположенными тем или иным образом в двумерном пространстве.
Выходные (кластерные) элементы сети Кохонена обычно представляют расположенными тем или иным образом в двумерном пространстве. Разместим, к примеру, выходные элементы в виде квадратной сетки и зададим начальный радиус обучения равным 2. Подаем на вход сети вектор и элементом-победителем оказывается нейрон, обозначенный на схеме красным цветом. По алгоритму обучения мы должны обновить значения весов для этого нейрона, а также для тех, которые попадают в круг заданного радиуса (в данном случае 2) – эти элементы выделены зеленым: (1)
Ближе к концу процесса обучения радиус уменьшается. Пусть он стал равным единице, тогда обновляться будут веса следующих элементов: (2)
Итак, разобрав все составляющие процесса обучение давайте напишем конкретный алгоритм для этого процесса:
берем учебный вектор и вычисляем квадрат евклидова расстояния от него до каждого из кластерных элементов сети
находим минимальное из полученных значений и определяем элемент-победитель
для нейрона-победителя, а также для тех нейронов, которые попали в заданный радиус, выполняем корректировку весов связей
обновляем значения нормы обучения и радиуса
продолжаем обучение, если не выполнено условие остановки обучения
Остановка обучения происходит в том случае, если величины изменения весов становятся очень маленькими. И на этом моменте предлагаю сегодня остановиться, поскольку статья получилась довольно большой.
источник
Data science [ru]
Какова функция команды GRANT в SQL?
#SQL

Оставить все изменения в БД, до тех пор пока не закончится старая транзакция и не начнется новая
▫️ 0%
Передача прав для выполнения определенных действий над таблицей - 42
👍👍👍👍👍👍👍👍 91%
Отмечает начало блока в котором описаны команды другого языка - 3
👍👍 7%
Для смены логина и пароля пользователей - 1
👍 2%
👥 46 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Передача прав для выполнения определенных действий над таблицей
источник
2021 February 28
Data science [ru]
Искусственный интеллект научился предсказывать новые химические реакции

Достижения наших учёных продолжают радовать общественность. Химики разработали нейросеть, которая может обучаться химическим законам и использовать их для предсказания новых реакций между сложными органическими соединениями. Ее создание ускорит и упростит поиски новых лекарств.
За последние годы ученые значительно продвинулись в разработке систем искусственного интеллекта. Созданные за это время нейросети могут выполнять нетривиальные задачи и даже «мыслить» творчески, создавая новые образцы искусства и технологий. Это стало возможным благодаря развитию вычислительных систем и появлению новых математических принципов, которые описывают устройство и работу систем машинного обучения.
Учёные приспособили нейросети для поиска новых химических реакций между уже известными веществами. При этом искусственный интеллект опирается на знания, которые получает, изучая законы химии и уже известные взаимодействия между изучаемыми молекулами.
Как правило, новые вещества и реакции между ними ученые открывают практически в «ручном» режиме, путем проб и ошибок, и мысленных экспериментов. Численные методы и химические алгоритмы в подобной работе используют очень редко. Однако при оптимизации уже открытых молекул и процессов, в которых они участвуют, их применяют достаточно широко. Это во многом связано с тем, что для работы с такими инструментами нужно не только знать законы химии и известные реакции, но и уметь открывать новые закономерности и применять их. Это недоступно всем существующим классическим и большинству нейросетевых алгоритмов.
В ходе новой работы химики из России, предположили, что эту проблему можно решить, если использовать нейросеть со своей собственной памятью, которая может запоминать цепочки реакций. Благодаря этому искусственный интеллект может научиться химическим законам, которые управляют реакциями между разными классами веществ, и использовать их для предсказания новых.
источник
Data science [ru]
​​Спутниковые ЦОД LyteLoop будут хранить данные на орбите в световых лучах.
Американский стартап LyteLoop приближается к запуску своих первых спутников, которые будут хранить информацию не на твердых носителях, а в движущихся фотонах. Стартап потратил пять лет на проработку концепции и регистрацию патентов, а на днях привлек $40 млн. финансирования от ряда неназванных инвесторов на испытания трех аппаратов. Цель LyteLoop – разместить защищенные и энергоэффективные центры обработки данных на околоземной орбите. Первая партия будет отправлена в космос до конца 2023 года.
Компания планирует хранить в космосе сотни петабайт или даже экзабайты данных, что эквивалентно объему наземного ЦОД, построенного на базе тысячи серверов. Технология стартапа предполагает запуск кластера, который выйдет на орбитe целиком, а затем разделится на несколько установок. Эти установки разойдутся в разные стороны и образуют восьмиугольное созвездие, внутри которого данные будут передаваться перманентно посредством световых лучей.
Данные на спутниках будут храниться в фотонах, а не на физических носителях. Такой подход даст нескольких принципиальных преимуществ. Спутники будут легче и в несколько раз меньше обычных серверов, так как для увеличения емкости им нужно будет увеличить не число дисков хранения данных, а число фотонов, то есть света, которым манипулирует система. А сами фотонные лучи позволят зашифровать информацию лучше, чем это делают распространенные системы безопасности, повысив уровень защиты до квантового.
«Все современные ЦОД ограничены одним максимальным уровнем безопасности для данных. Все, что можно применить на Земле, можем применить и мы в нашем ЦОД, но за счет того, что мы храним данных в фотонах, мы также можем использовать квантовое шифрование. Кроме того, наши данные всегда находятся в движении и передаются со скоростью света, поэтому их сложнее отследить и перехватить», — сообщил гендиректор.
Трансляция информации будет происходить за счет лазеров с высокой пропускной способностью. Точные показатели спутников стартапа пока неизвестны, но глава компании Охад Харлев утверждает, что ЦОД LyteLoop будет примерно в 500 раз эффективнее и быстрее традиционных решений.
Что касается затрат на спутниковые ЦОД, то вывести спутник на орбиту будет дороже, чем построить аналогичное хранилище на Земле. Однако эта разница полностью нивелируется стоимостью обслуживания и энергозатратами. Спутники будут питаться от солнечных панелей, независимо от циклов дня и ночи, им не нужны будут огромные запасы воды для систем охлаждения, как и системы пожаротушения и резервного энергоснабжения, а также им не требуется регулярное техобслуживание, так как в них не будет постоянного механического износа дисков. При этом она обеспечить быстрый доступ к информации из любой точки планеты.
источник
2021 March 01
Data science [ru]
​​⚠️Переобучение нейросетей: в чем проблема и как ее решить

'''С момента описания первого искусственного нейрона Уорреном Мак-Каллоком и Уолтером Питтсом прошло более пятидесяти лет. С тех пор многое изменилось, и сегодня нейросетевые алгоритмы применяются повсеместно. И хотя нейронные сети способны на многое, исследователи при работе с ними сталкиваются с рядом трудностей: от переобучения до проблемы «черного ящика»'''.


Главная проблема нейросетей — переобучение. Оно заключается в том, что сеть «запоминает» ответы вместо того, чтобы улавливать закономерности в данных. Наука поспособствовала появлению на свет нескольких методов борьбы с переобучением: сюда относятся, например, регуляризация, нормализация батчей, наращивание данных и другие. Иногда переобученная модель характеризуется большими абсолютными значениями весов.

Механизм этого явления примерно такой: исходные данные нередко сильно многомерны (одна точка из обучающей выборки изображается большим набором чисел), и вероятность того, что наугад взятая точка окажется неотличимой от выброса, будет тем больше, чем больше размерность. Вместо того, чтобы «вписывать» новую точку в имеющуюся модель, корректируя веса, нейросеть как будто придумывает сама себе исключение: эту точку мы классифицируем по одним правилам, а другие — по другим. И таких точек обычно много.

📌Очевидный способ борьбы с такого рода переобучением – регуляризация весов. Она состоит либо в искусственном ограничении на значения весов, либо в добавлении штрафа в меру ошибки на этапе обучения. Такой подход не решает проблему полностью, но чаще всего улучшает результат.

📌Второй способ основан на ограничении выходного сигнала, а не значений весов, — речь о нормализации батчей. На этапе обучения данные подаются нейросети пачками — батчами. Выходные значения для них могут быть какими угодно, и тем их абсолютные значения больше, чем выше значения весов. Если из каждого из них мы вычтем какое-то одно значение и поделим результат на другое, одинаково для всего батча, то мы сохраним качественные соотношения (максимальное, например, все равно останется максимальным), но выход будет более удобным для обработки его следующим слоем.

📌Третий подход работает не всегда. Как уже говорилось, переобученная нейросеть воспринимает многие точки как аномальные, которые хочется обрабатывать отдельно. Идея состоит в наращивании обучающей выборки, чтобы точки были как будто той же природы, что и исходная выборка, но сгенерированы искусственно. Однако тут сразу рождается большое число сопутствующих проблем: подбор параметров для наращивания выборки, критическое увеличение времени обучения и прочие.
источник
2021 March 02
Data science [ru]
​​Отличаем DataScience от MachineLearning
Многие новички начитавшись статей про DataScience и Машинное обучение , относят эти два совершрнно разные ветки ComputerScience к одной иерархии.

Так в чём же их отличия?!

📊DataScience:

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

- Выводы из данных
-  Python и sql
-  Используется большой объем оперативной памяти и SSD
-  Сложная обработка ввода данных
-  данные о человеческих потребителях

Примеры применения науки о данных:
- Тактическая оптимизация — улучшение маркетинговых кампаний, бизнес-процессов.
- Прогнозируемая аналитика — прогноз спросов и событий.- Рекомендательные системы — Amazon, Netflix.
- Системы автоматического принятия решений — например распознавание лиц или даже беспилотники.
- Социальные исследования — обработка анкет или данных, полученных любым другим способом.

Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

🤖Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:
- Модели, которые могут прогнозировать поведение пользователя.
- Классификационные модели, которые могут узнать и отфильтровать спам.
- Рекомендательные системы — изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
- Нейронные сети — не только распознают образы, но и сами могут их создавать.
источник
2021 March 03
Data science [ru]
​​📊SQL или NoSQL — вот в чём вопрос🤔

Что такое реляционные и нереляционные базы данных

👉🏻Реляционная база данных (SQL) — база, где данные хранятся в формате таблиц, они строго структурированы и связаны друг с другом. В таблице есть строки и столбцы, каждая строка представляет отдельную запись, а столбец — поле с назначенным ей типом данных. В каждой ячейке информация записана по шаблону.

👉🏻Нереляционная база данных (NoSQL) — хранит данные без четких связей друг с другом и четкой структуры. Вместо структурированных таблиц внутри базы находится множество разнородных документов, в том числе изображения, видео и даже публикации в социальных сетях. В отличие от реляционных БД, NoSQL базы данных не поддерживают запросы SQL.


Реляционные базы данных, или базы данных SQL

Особенности. Основная особенность — надежность и неизменяемость данных, низкий риск потери информации. При обновлении данных их целостность гарантирована, они заменяются в одной таблице.
Реляционные базы данных, в отличие от нереляционных, соответствуют ACID — это требования к транзакционным системам. Соответствие им гарантирует сохранность данных и предсказуемость работы базы данных:

Atomicity, или атомарность — ни одна транзакция не будет зафиксирована в системе частично.

Consistency, или непротиворечивость — фиксируются только допустимые результаты транзакций.

Isolation, или изолированность — на результат транзакции не влияют транзакции, проходящие параллельно ей.

Durability, или долговечность — изменения в базе данных сохраняются несмотря на сбои или действия пользователей.

При работе с такими СУБД надо учитывать, что любые изменения в объектах нужно отражать в структуре таблиц, физическая структура данных не соответствует объектной модели приложения.
Реляционные БД идеальны для работы со структурированными данными, структура которых не подвержена частым изменениям.

Нереляционные базы данных, или базы данных NoSQL

Особенности. В отличие от реляционных, в нереляционных базах данных схема данных является динамической и может меняться в любой момент времени. К данным сложнее получить доступ, то есть найти внутри базы что-то нужное — с таблицей это просто, достаточно знать координаты ячейки. Зато такие СУБД отличаются производительностью и скоростью. Физические объекты в NoSQL обычно можно хранить прямо в том виде, в котором с ними потом работает приложение.
Базы данных NoSQL подходят для хранения больших объемов неструктурированной информации, а также хороши для быстрой разработки и тестирования гипотез.
В них можно хранить данные любого типа и добавлять новые в процессе работы.

Масштабируемость. NoSQL базы имеют распределенную архитектуру, поэтому хорошо масштабируются горизонтально и отличаются высокой производительностью. Технологии NoSQL могут автоматически распределять данные по разным серверам. Это повышает скорость чтения данных в распределенной среде.
источник
Data science [ru]
Язык R, не смотря на своё узкое назначение, входит в топ 10 наиболее популярных языков программирования согласно различным рейтингам, включая TIOBE. А для анализа данных R является чуть ли не стандартом отрасли и является достойным соперником Python.

Хочу порекомендовать канал @R4marketing. Автором которого является Алексей Селезнёв, руководитель отдела аналитики в Netpeak.

Канал посвящён языку R. На данный момент там собрано огромное количество русскоязычных материалов по изучения R:

- Статьи
- Видео уроки
- Вебинары и доклады с конференций
- Заметки по R
- Книги
- Бесплатные онлайн курсы
- Новости и релизы из мира R

В канале опубликовано более 500 ссылок на русскоязычные материалы по R.

Кому интересно - подписывайтесь!

https://t.me/R4marketing
источник
2021 March 04
Data science [ru]
🧠Виды нейронных сетей.👾

Новые виды архитектуры нейронных сетей появляются постоянно, и в них можно запутаться. Мы собрали для вас своеобразную шпаргалку, содержащую большую часть существующих видов ИНС. Хотя все они представлены как уникальные, картинки свидетельствуют о том, что многие из них очень похожи.

https://telegra.ph/Tipy-nejronnyh-setej-03-03
источник
2021 March 05
Data science [ru]
​​Чем искусственный интеллект отличается от машинного обучения?

*AI* Искусственный интеллект нацелен на создание художественной компьютерной системы, подобной людям, для решения сложных проблем.

*ML* позволяет машинам учиться на данных, чтобы они могли выдавать точный результат

*AI* В зависимости от возможностей ИИ можно разделить на 3 типа. Слабый ИИ, Общий ИИ и сильный ИИ.

*ML* ML делится на 3 типа: обучение с учителем, обучение без учителя и обучение с подкреплением.

*AI* Системы искусственного интеллекта заинтересованы в максимальном увеличении шкалы успеха.

*ML* Машинное обучение в основном связано с точностью и закономерностями.

*AI* ИИ позволяет машине имитировать поведение человека.

*ML* Машинное обучение - это разновидность искусственного интеллекта

*AI* В основном имеет дело со структурированными полуструктурированными и неструктурированными данными.

*ML* ML работает со структурированными и полуструктурированными данными.

*AI* Применение ИИ - это Siri, поддержка клиентов с помощью кэтботов, интеллектуальных гуманоидных роботов и т. Д.

*ML* Применением машинного обучения являются системы рекомендаций, алгоритмы поиска, предложения автоматической пометки друзей в Facebook и т. Д.
источник
2021 March 06
Data science [ru]
💡Обучение нейросети с учителем, без учителя, с подкреплением — в чем отличие? Какой алгоритм лучше?🚀

Обучить нейронную сеть можно разными способами: с учителем, без учителя, с подкреплением. Но как выбрать оптимальный алгоритм и чем они отличаются? Есть несколько способов собрать мебель из IKEA. Каждый из них приводит к собранному дивану или стулу. Но в зависимости от предмета мебели и его составляющих один способ будет более разумным, чем другие.
Есть руководство по эксплуатации и все нужные детали? Просто следуйте инструкции. Ну как, получается? Можно выбросить руководство и работать самостоятельно. Но стоит перепутать порядок действий, и уже вам решать, что делать с этой кучей деревянных болтов и досок.
Все то же самое с глубоким обучением (deep learning). Разработчик предпочтет алгоритм с конкретным способом обучения, учитывая вид данных и стоящую перед ним задачу.

https://telegra.ph/Obuchenie-nejroseti-s-uchitelem-bez-uchitelya-s-podkrepleniem--v-chem-otlichie-Kakoj-algoritm-luchshe-03-05
источник
2021 March 07
Data science [ru]
🖥️Распознавание объектов на Python / Глубокое машинное обучение📊

Python является одним из самых перспективных языков, позволяющий воплощать искусственный интеллект в жизнь. В уроке мы создадим распознавание объектов при помощи Python и ImageAI.

Одна из самых перспективных наук о компьютерах и программах – компьютерное зрение. Его смысл заключается в способности ПК к распознанию и определению сути картинки. Это важнейшая область в искусственном интеллекте, включающая сразу несколько действий: распознание содержимого фотографии, определение предмета и его классификация или генерация. Поиск объектов на картинке, скорее всего, является важнейшей областью компьютерного зрения.

https://telegra.ph/Raspoznavanie-obektov-na-Python--Glubokoe-mashinnoe-obuchenie-03-06
источник
2021 March 08
Data science [ru]
🧠Типы графиков в matplotlib / plt 3📊

Поскольку визуализация — основная цель библиотеки, то этот раздел является очень важным. Умение выбрать правильный тип графика является фундаментальным навыком, ведь неправильная репрезентация может привести к тому, что данные, полученные в результате качественного анализа данных, будет интерпретированы неверно.

https://telegra.ph/Tipy-grafikov-v-matplotlib--plt-3-03-07
источник
2021 March 09
Data science [ru]
Мир IT и не только поглощен обработкой беспредельного количества данных. Будь то социальные сети или научная информация — везде требуются инструменты, значительно превышающие по возможностям устаревшие программы, вроде Excel. Требуются принципиально иные подходы и совершенные алгоритмы для их реализации. Вот 9 языков, с помощью которых работа с Big Data доставит вам чуть меньше головной боли.

https://telegra.ph/9-yazykov-dlya-Big-Data-03-08
источник
Data science [ru]
Получи ультрасовременное образование из любой точки мира! Четырехлетняя программа бакалавриата по аналитике данных и машинному обучению это:
→ дистанционное образование за 4 года;
→ портфолио, стажировки и трудоустройство;
→ возможность получить 2 диплома;
→ отсрочка от армии.

Специалисты Data Science & Machine Learning находят закономерности в данных и делают выводы. Например, какой способ производства на предприятии тратит меньше энергии, какие товары компании самые популярные или когда в экономике может случиться дефолт. А также создают алгоритмы обучаемого искусственного интеллекта для нейросетей, голосовых помощников, программ распознавания лиц и чат-ботов.

Вот, в каких сферах ты сможешь работать после окончания вуза:
→ Разработка игр.
→ Информационные технологии.
→ Медицина.
→ Финансы.

Получи больше информации, переходи по ссылке: https://clc.am/jv1anA
источник
2021 March 10
Data science [ru]
Технология FPGA для искусственного интеллекта.

Трудно представить другую технологию, которая настолько разносторонняя как FPGA.
FPGA — Field-Programmable Gate Array, то есть программируемая логическая матрица (ПЛМ), программируемая логическая интегральная схема (ПЛИС). Это технология, при которой создается микросхема с набором логических элементов, триггеров, иногда оперативной памяти и программируемых электрических связей между ними. При этом программирование FPGA оказывается похоже на разработку электрической схемы, а не программы. Пользуюсь данной технологией давно и попробую описать самые полезные с моей точки зрения применения по мере их усложнения.

Cферы применения решений FPGA + AI и Преимущества FPGA для искусственного интеллекта.
https://telegra.ph/Cfery-primeneniya-reshenij-FPGA--AI-03-09
источник
Data science [ru]
Невероятно, но факт: язык программирования Python нужен не только для веб-разработки, программ или видеоигр. Он хорошо помогает и в бизнесе. И если вы думаете, что кодить это сложно и не для вас — значит, вы еще не учились на курсе Python для решения бизнес-задач от GeekBrains.

Курс подходит для всех, кто не знаком с программированием, но решает задачи бизнеса и хочет делать это в три раза быстрее.
Продакт-менеджеры, маркетологи, собственники бизнеса да и вообще любые ценители своего времени — если вы работаете с аналитикой, делаете имейл-рассылку, обрабатываете файлы или занимаетесь рутинными задачами, то это обучение как раз для вас.
Один раз напишете программу — и забудете ручную обработку данных как страшный сон.

Хотите знать больше? Переходите по ссылке →  https://geekbrains.ru/link/OEQ6N5
источник