Size: a a a

Data science [ru]

2021 February 01
Data science [ru]
Справочник подготовлен профессиональными администраторами и опытными разработчиками, использующими различные диалекты SQL для поддержки сложных корпоративных приложений. Основная задача издания – служить кроссплатформенным руководством для тех, кто, не будучи экспертами, зани  мается переносом кода (включая пользовательские приложения) между раз  личными СУБД. Независимо от того, является ли читатель новичком в SQL или имеет значительный опыт его использования, он найдет много полезных сове  тов и приемов в этой лаконичной и удобной для работы книге.
источник
Data science [ru]
​​Бесплатный вебинар ««Разворачиваем приложение на Apache Spark в Kubernetes. Пошаговый рецепт»» от Mail.ru Cloud Solutions

Cовременный DevOps-подход к работе со Spark, связанный с использованием Kubernetes, позволяет решать задачи изоляции рабочих сред, гибкого управления ресурсами и масштабирования. Популярные материалы останавливаются на запуске тестового приложения в K8s. В своем вебинаре команда MCS идет дальше: даже начинающие научатся обрабатывать данные с помощью Spark в облаке. 

На вебинаре вы вместе со специалистами Mail.ru:
— Установите Kubernetes Operator for Apache Spark (Spark Operator);
— Запустите тестовый пример Spark-задачи/приложения;
— Соберете свой Docker-образ со Spark и кастомным приложением;
— Добавите необходимые библиотеки, креды для доступа к S3-хранилищу;
— Научитесь читать из S3 и записывать в него.

По итогам вебинара вы получите готовый репозиторий с инструкцией и сможете самостоятельно повторить все действия, которые будут продемонстрированы в рамках вебинара.

Мероприятие пройдет в четверг, 4 февраля, онлайн. 
Начало в 17:00 по Москве. 

👉 Регистрируйтесь: https://vk.cc/bXIm7V
источник
Data science [ru]
#SQL
Дана таблица cars:
color
-----
blue
red
null
blue
Каким будет результат следующего запроса:
SELECT COUNT(DISTINCT color) FROM cars

red blue null - 3
👍 4%
3 - 19
👍👍👍👍 27%
2 - 43
👍👍👍👍👍👍👍👍 61%
211 - 6
👍👍 8%
👥 71 человек уже проголосовал.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
                    2
DISTINCT учитывает колонки со значением null, но COUNT не учитывает
источник
2021 February 02
Data science [ru]
Чего ожидать от технологий в 2021 году?
Благодаря развитию облачных сервисов работа из дома (и вообще откуда угодно) станет обычным делом, а за нашим поведением будут следить умные устройства.
1. Рост популярности облаков
За последние годы с облачными сервисами научились работать даже те, кто изначально относился к ним скептически. Это закономерное последствие массового перехода на дистанционную работу и учёбу: всеобщая самоизоляция вызвала взрывной рост спроса на фоне коронавируса всплеск интереса к системам удалённого взаимодействия. В 2020 году спрос на российском облачном рынке на 70% превышал плановые показатели. При этом пользователи часто интересовались не отдельными услугами, а комплексными решениями.
Эксперты исследовательской компании IDC предрекают, что в 2021 году интерес к облачным сервисам продолжит расти. Кроме того, большинство компаний создадут механизмы, которые вдвое ускорят их переход на облачную инфраструктуру и приложения.
источник
Data science [ru]
​​Будущее рядом — освой профессию Data Scientist

В настоящее время искусственный интеллект — это не фантазии американских сценаристов-выдумщиков. Это реальность, которая стремительно врывается в нашу жизнь. Но с одной поправкой. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.
 
И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist». 

Тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.

Начать обучение на курсе — ответственное решение, и лучше познакомиться с курсом еще до покупки. Поэтому Skillbox дарит доступ к первым двум модулям курса.

Вы познакомитесь с основами языка Python и его применением в анализе данных, научитесь пользоваться Jupyter Notebook — рабочим инструментом в области Data Scienсe. Регистрируйтесь по ссылке со скидкой: https://clc.am/68IT4A
источник
Data science [ru]
#программирование
#алгоритмы
Выберите алгоритмы построения выпуклой оболочки.

Ответ предполагает несколько вариантов

Метод меток Форда-Фалкерсона - 4
👍👍👍 18%
Грэхема - 3
👍👍 14%
Штрасена
▫️ 0%
Обход по Джарвису - 15
👍👍👍👍👍👍👍👍 68%
👥 22 человека уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Грэхема
Обход по Джарвису
источник
2021 February 03
Data science [ru]
Китайцы создали альтернативу Android и iOS на Ubuntu для смартфонов и планшетов
Импортозамещение в Китае активно реализуется. На днях была представлена мобильная операционная система JingOS, которая предназначена для планшетов. В ближайшее время разработчики планируют создать и версию для смартфонов, так что эта ОС — прямой конкурент (пока лишь для Китая) Android и iOS.
источник
Data science [ru]
⭐️ Рекомендуем канал про московский ИT-рынок @ICT_Moscow

Авторы канала публикуют новости и материалы о разработках стартапов и компаний столицы, сопровождая их контактами ключевых лиц. Сейчас здесь также проходит опрос разработчиков решений в сфере искусственного интеллекта  о реалиях и барьерах при реализации проектов.

Еще в канале публикуются мнения представителей индустрии по актуальным темам, вакансии из первых рук, свежие отраслевые исследования, эксклюзивные аналитические материалы, а каждое утро начинается с обзора главных ИT-новостей.

👉 Подписывайтесь чтобы следить за тем, что происходит с ИT в Москве: https://t.me/ICT_Moscow
источник
Data science [ru]
Группа ученых предложила создать ИИ для радикального продления жизни
Группа ученых в области искусственного интеллекта и практической медицины предложила план создания ИИ следующего поколения для существенного увеличения продолжительности жизни человека. План заключается в использовании методов глубокого обучения для исследования мельчайших биологических процессов и их взаимовлияния на здоровье пациентов. Авторы, в числе которых один из ключевых исследователей ИИ в мире, предлагают бизнесу заняться развитием новой отрасли знаний — медицины долгожительства.
В статье «Искусственный интеллект и медицина долголетия» авторы — Алекс Жаворонков, биофизик и основатель Deep Longivity, Эвелин Юдифь Бишоф, практикующий врач, специалист по героонкологии, ведущий специалист университетской клиники Базеля в Швейцарии, и Ли Кайфу, один из ведущих исследователей ИИ в мире, возглавлявший ИИ-подразделения в Apple, SGI, Microsoft и Google, — описали основы применения технологии глубокого обучения в изучении долголетия и возможностей продления срока жизни, которые открываются перед медициной и бизнесом.
«Искусственный интеллект обладает громадным потенциалом в терапии. Однако способность отслеживать и изучать мельчайшие изменения, которые совершаются в человеческом теле каждую секунду в течение жизни и у большого количества пациентов позволяет разработать новую отрасль медицины — медицину долгожительства», — заявила профессор Бишоф.
Традиционный подход медицины заключается в лечении заболеваний, однако, как показали исследования, даже полная победа над заболеваниями не даст серьезного увеличения средней продолжительности жизни. Так, полное уничтожение рака приведет в США к увеличению средней продолжительности жизни всего на 2,3 года среди новорожденных и на 1,3 года — в возрасте 65 лет. Полное искоренение гриппа и пневмонии продлит жизнь в среднем на 0,5 и 0,2 года, соответственно, пишет EurekAlert.
Эти цифры такие маленькие оттого, отмечают авторы, что существует множество биологических процессов и заболеваний, которые начинают сокращать продолжительность жизни в пожилом возрасте, так что уничтожение одной причины не дает значимого результата в общем итоге. Основная движущая сила большинства этих заболеваний и процессов — старение организма.
Старение — универсальное свойство всех живых организмов. Современные системы искусственного интеллекта достигли сверхчеловеческой точности в прогнозировании различных параметров и изучении закономерностей на основе множества типов данных. Обучившись предсказывать возраст по данным о долголетии, нейронные сети глубокого обучения способны раскрыть базовые биологические и физиологические процессы, которые проявляются у человека со временем в виде тесным образом взаимосвязанных патологий. Авторы инициативы намерены помочь созданию такого ИИ.
Результаты исследования ученых из США показали, что продолжительность жизни человека можно предсказать в юном возрасте, измерив объем генетических мутаций. Эту информацию в будущем можно использовать для определения тех, кто находится в группе риска, чтобы вовремя начать профилактические меры.
источник
2021 February 04
Data science [ru]
Pile: открытый датасет для обучения языковых моделей на 825 гигабайт
Pile — это датасет с разнообразными текстами на 825 гигабайт для обучения языковых моделей. Датасет состоит из 22 датасетов меньшего размера, которые объединили в один. Кроме датасета, создатели опубликовали бенчмарк для тестирования языковых моделей на качество моделирования.
источник
Data science [ru]
Для какого из ключевых слов можно добавить строку "TABLE employees", чтобы запрос выполнился для таблицы employees?
SQL

SELECT - 5
👍👍 9%
ALTER - 4
👍👍 7%
INSERT INTO - 10
👍👍👍 18%
UPDATE - 4
👍👍 7%
DROP - 34
👍👍👍👍👍👍👍👍 60%
👥 57 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
               DROP
источник
Data science [ru]
Думаете попробовать себя в Data Science или повысить свой профессиональный уровень?

На бесплатном занятии Нетологии «Как начать в Data Science» расскажут о трендах и специфике области, карьерных траекториях в профессии и обучении на курсах Data Scientist и Аналитик данных.

В результате вы:
— Познакомитесь с рабочими кейсами и возможностями инструментов Data Science;
— Узнаете, какие ключевые навыки требуются на старте и как развиваться потом;
— Сможете задать вопросы о программе и преподавателях, обучении и практике, дипломе и портфолио.

Спикеры:
— Константин Башевой, аналитик-разработчик в Яндекс и эксперт Нетологии.

Регистрация по ссылке ↓
https://netolo.gy/gci
источник
2021 February 05
Data science [ru]
Искусственный интеллект в вашем смартфоне поможет определить депрессию
Смартфоны, которые способны идентифицировать наше лицо и голос, также помогут убрать помехи для диагностики и лечения психических расстройств.
Депрессивное состояние – это существенная проблема для миллионов людей, которая часто осложняется плохим медицинским обслуживанием и застенчивостью самого пациента, из-за чего он боится идти к врачу. Ранняя диагностика способна помочь, но сложность в том, что много психических расстройств трудно определить. Алгоритмы машинного обучения, которые позволяют смартфонам идентифицировать лицо или реагировать на наши голоса, также могут обеспечить универсальный и недорогой способ выявления ранних признаков депрессии и лечение для тех, кому это необходимо.
В ходе исследования, проведенного командой Стэнфордского университета, ученые установили, что программное обеспечение для лица и языка может достаточно точно выявлять признаки депрессии.
Исследователи загружали видео поведения депрессивных и недепресивних людей в модель машинного обучения, которую затем тренировали на базе комбинации таких признаков: мимика, тембр голоса и слова разговора. Данные были собраны с интервью, где пациент говорил с аватаром, которым руководил врач.
Тестирование позволило определить, был ли человек подавлен более 80% времени, которое приходилось на период наблюдения.
Несмотря на то, что новая технология находится пока на ранней стадии развития, исследователи считают, что когда-нибудь она сможет обеспечить простой способ диагностики и помощи людям.
«В сравнении с физическими болезнями психические расстройства выявлять труднее, – отмечают исследователи в документе, который был представлен на конференции NeurIPS AI в Монреале на этой неделе. – Проблемы с психическим здоровьем усложняются другими препятствиями, такими как скрытность перед обществом, финансовые затраты и нехватку доступных вариантов лечения. Эта технология может быть распространена на мобильные телефоны по всему миру и обеспечить недорогой универсальный доступ к охране психического здоровья».
Исследователи предостерегают, что эта технология не заменит клиническое лечение. Они добавляют, что данные, которые используются, не содержат никакой конфиденциальной информации о здоровье, как, например, имя, дата или место пребывания. Они также отмечают, что немало еще нужно сделать для того, чтобы технология в конце концов не была предвзятой к определенной расе или полу.
Джастин Бейкер (Justin Baker), клинический психиатр больницы McLean в Кембридже, штат Массачусетс, который изучает использование технологии для лечения психических заболеваний, поражен тем способом, как система анализирует лица, голос и речь пациента. «Это действительно очень круто», – говорит он. Более того, Бейкер считает, что искусственный интеллект и смартфоны могут существенно повлиять на развитие здравоохранения, если эти технологии использовать правильно.
Но Сонтаг Дэвид (David Sontag), доцент МИТ (Массачусетского технологического института), специализирующийся на машинном обучении и здравоохранении, более сдержан в оценке значения данной работы. Одна из проблем, по его словам, заключается в том, что первые данные для тренировки искусственного интеллекта были собраны во время интервью с реальным врачом, хотя он и прятался за аватаром. Поэтому непонятно, может ли диагностика быть полностью автоматизированной в будущем. "Направление работы интересно, но мне пока неясно, как результаты будут использоваться клинически", - говорит он. Тем не менее, новые подходы к выявлению и лечению психических расстройств обещают сделать лечение более доступным, и возможно даже более эффективным.
Еще одна исследовательская группа в Стэнфорде разработала чатбот, который обеспечивает простую познавательную поведенческую терапию. Исследователи утверждают, что такой подход оказался эффективным и что много пациентов ответили, что они на самом деле предпочитают говорить с машиной.
источник
Data science [ru]
Как называется набор требований к транзакциям?
#SQL

GUID - 1
👍 1%
DCIM - 1
👍 1%
INT - 1
👍 1%
ACID - 60
👍👍👍👍👍👍👍👍 90%
ICANN - 1
👍 1%
T-SQL - 3
👍 4%
GRID
▫️ 0%
👥 67 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
               ACID

Транзакции характеризуются следующими четырьмя свойствами (также известными как ACID):
Атомарность
Консистентность
Изоляция
Долговечность
источник
2021 February 06
Data science [ru]
​​Advbox: библиотека для генерации состязательных примеров
Advbox — это открытая библиотека инструментов для проверки обученных нейросетей на уязвимости. Разработкой библиотеки занимались исследователи из Baidu. В библиотеке есть функционал для генерации, распознавания и защиты от состязательных примеров. Состязательными примерами называются примеры входных данных, для которых модель стабильно выдает неверные предсказания.
В последние годы нейросети широко применялись для задач компьютерного зрения. В частности — для задачи классификации. Несмотря на то, что часть моделей по метрикам обходит человека на этой задачи, модели все еще остаются уязвимыми к состязательным примерам. Незначительные и незаметные изменения входных изображений достаточны, для того чтобы обмануть большинство нейросетевых подходов.
Чтобы повысить устойчивость предсказаний модели, необходимо проводить мониторинг того, к каким состязательным примерам модель уязвима. Для этого разработчики из Baidu опубликовали библиотеку Advbox. Функционал Advbox позволяет генерировать состязательные примеры. В сравнении с схожими инструментами Advbox предоставляет возможность проводить более разнообразные атаки на модели.
Что внутри библиотеки
В классе Attack в Advbox реализованы популярные состязательные атаки, которые ищут состязательные примеры в выборке. Каждый метод атаки использует меру расстояния, чтобы оценить степень искажения изображения.
В классе Model реализованы интерфейсы для взаимодействия с разными нейросетевыми фреймворками: Tensorflow, PyTorch, MxNet и PaddlePaddle. Модуль используется библиотекой для подсчета градиентов и выдачи предсказаний.
Класс Adversary содержит оригинальные входные данные, разметку и состязательные примеры. Состязательный пример добавляется в список, если модель выдала для него неверное предсказание.
Advbox поддерживает 6 алгоритмов атаки: 
FGSM;
BIM;
DeepFool;
JSMA; 
CW;
PGD
Помимо этого, в библиотеке доступны 6 алгоритмов для защиты от атак:
Feature Squeezing;
Spatial Smoothing;
Label Smoothing;
Gaussian Augmentation;
Adversarial Training;
Thermometer Encoding
Чтобы оценить устойчивость модели к атакам Advbox использует библиотеку Perceptron.
источник
Data science [ru]
Какой оператор используется для поиска заданного шаблона в столбце?
#SQL#SQL

PATTERN - 3
👍 4%
LIKE - 64
👍👍👍👍👍👍👍👍 94%
FROM
▫️ 0%
GET - 1
👍 1%
👥 68 человек уже проголосовало.
источник