Size: a a a

Data science [ru]

2021 February 13
Data science [ru]
Какие ключевые слова обязательны при выборке данных с соединением таблиц (не учитывая cartesian product)?
#SQL
Ответ предусматривает несколько вариантов

ON - 4
👍👍 5%
SELECT - 5
👍👍 7%
USING
▫️ 0%
JOIN - 54
👍👍👍👍👍👍👍👍 71%
FROM - 12
👍👍👍 16%
WHERE - 1
👍 1%
👥 76 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
SELECT
JOIN
FROM
источник
2021 February 14
Data science [ru]
TracIn: способ оценить влияние отдельных объектов в данных на предсказания
TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при переходе от одного объекта данных к другому. С помощью TracIn можно находить ошибки в разметке данных и выбросы. Кроме того, метод позволяет объяснять предсказания на примере объектов из обучающей выборки. Подход предложили исследователи из Google AI.
источник
Data science [ru]
Выберите алгоритмы сортировки для которых асимптотическая оценка в наихудшем случае O(n<sup>2</sup>)
#Алгоритмы

Ответ предусматривает несколько вариантов

Шелла - 4
👍👍 10%
Быстрая - 8
👍👍👍👍 20%
Пузырьковая - 22
👍👍👍👍👍👍👍👍 54%
Слиянием - 3
👍👍 7%
Выбором - 4
👍👍 10%
👥 41 человек уже проголосовал.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Быстрая
Пузырьковая
Выбором
источник
2021 February 15
Data science [ru]
JigsawGAN: генеративная нейросетевая модель собирает пазлы
JigsawGAN — это генеративная self-supervised нейросетевая модель, которую обучили на задаче сбора пазлов. Модель принимает на вход хаотично расположенные части изображения. На основе этого модель восстанавливает оригинальное изображение. Нейросеть не требует дополнительной информации по изображению для поиска решения. Нейросеть обходит альтернативные подходы по количественным и качественным метрикам.
источник
Data science [ru]
Какой алгоритм сортировки признается лучшим и наиболее эффективным?
#Алгоритмы

Сортировка Шелла - 8
👍👍👍 12%
Сортировка вставками - 1
👍 2%
Сортировка слиянием - 3
👍👍 5%
Сортировка Чарльза Хоара (быстрая) - 35
👍👍👍👍👍👍👍👍 54%
Шейкерная сортировка - 1
👍 2%
Сортировка бинарным деревом - 17
👍👍👍👍 26%
👥 65 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Сортировка Чарльза Хоара (быстрая)
источник
2021 February 16
Data science [ru]
Перед вами один из самых интересных учебников по машинному обучению – разделу искусственного интеллекта, изучающего методы построения моделей, способных обучаться, и алгоритмов для их построения и обучения. Автор воздал должное невероятному богатству предмета и не упустил из виду объединяющих принципов. Читатель с первых страниц видит машинное обучение в действии, но без не нужных на первых порах технических деталей. По мере изучения предмета тщательно подобранные примеры, сопровождаемые иллюстрациями, постепенно усложняются.
источник
Data science [ru]
В чём разница между расширенным алгоритмом Евклида и обычным?
#Алгоритмы

Расширенный алгоритм Евклида позволяет извлечь дополнительную информацию - 25
👍👍👍👍👍👍👍👍 81%
Расширенный алгоритм Евклида работает быстрее, но более сложный в реализации - 5
👍👍 16%
Между ними нет существенной разницы - 1
👍 3%
👥 31 человек уже проголосовал.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Расширенный алгоритм Евклида позволяет извлечь дополнительную информацию
источник
2021 February 17
Data science [ru]
​​Математика для Data Science: 3 полезных закона

Закон Бенфорда
Закон Бенфорда — это математический закон в котором говорится о первой цифре числа из набора реальных данных.
Если мы представим случайное число, то было бы логично предположить, что его первая цифра также будет случайной. То есть вероятность того, что это будет число от 1 до 9, одинакова для каждого из этих чисел, и составляет около 11,1%. Однако это не так.
Закон Бенфорда утверждает, что первая цифра числа чаще будет меньшей, в большинстве реально встречающихся коллекций чисел.
Давайте попробуем применить этот закон к реальному датасету. Для этой статьи  использовались данные из Kaggle о длительности песен в Spotify с 1921 по 2020 год. Вот график того, как часто та или иная цифра является первой:
источник
Data science [ru]
Вам надо отсортировать массив из 6 элементов. Быстрей всего это выполнит?
#Алгоритмы

heap sort (пирамидальная сортировка) - 4
👍👍 8%
bubble sort (пузырьковая сортировка) - 27
👍👍👍👍👍👍👍👍 51%
quick sort (быстрая сортировка Хоара) - 22
👍👍👍👍👍👍👍 42%
👥 53 человека уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
bubble sort (пузырьковая сортировка)

Подробно можно почитать здесь
источник
2021 February 18
Data science [ru]
Искусственный интеллект поможет московским врачам при эндоскопии

В Боткинской больнице точный диагноз помогает ставить искусственный интеллект. Во время эндоскопии система не только показывает состояние внутренних органов, но легко обнаруживает подозрительный участок, а, значит, приступить к лечению можно незамедлительно.
"Искусственный интеллект" приходит на помощь к столичным врачам. Видеть больше, а значит, лучше ставить диагнозы. На обследовании - женщина 68 лет. В Боткинскую больницу поступила с жалобами на боли в кишечнике. Гастроскопия и колоноскопия должны дать полную картину состояния пациента. Но в этот раз исследования проводятся в буквальном смысле в "четыре глаза".
Так называемый "искусственный интеллект" – это, по сути, дополнительный монитор к эндоскопической системе, который позволяет врачу увидеть более детальную картину исследования, и при необходимости обратить внимание на подозрительный участок слизистой пациента.
От эндоскопического аппарата сигнал поступает в систему, где и начинается глубокий анализ. То, что может не заметить человек, программа не пропустит.
"Это плоское новообразование, которое может быть доктор сразу и не увидит, но с использованием искусственного интеллекта, который несколько раз немножечко с задержкой, но при этом акцентирует наше внимание на том, что здесь есть новообразование и надо обратить на него внимание", - объясняет заведующая эндоскопическим отделением Боткинской больницы Ирина Коржаева.
Обращает внимание врача "искусственный интеллект" синим квадратом. Он обозначает область, где обязательно нужна более точная диагностика. Окончательное решение о наличии или отсутствии патологии и дальнейшем лечении принимает только врач.
"Это, собственно говоря, очередное достижение нашей науки в пользу врача и в пользу, конечно, пациента, потому что из этих маленьких образований в некоторых случаях вырастают большие проблемы", - говорит заведующая эндоскопическим отделением Боткинской больницы Ирина Коржева.
Разработчики "Искусственного интеллекта" для эндоскопии - из Ярославского государственного университета. На базе регионального онкоцентра они опробовали, а теперь внедрили и в Боткинской больнице метод находить новообразования в организме пациента.
"Фактически переложили имеющиеся разработки в области детектирования объектов на вот эту тему эндоскопическую", - говорит один из разработчиков системы искусственного интеллекта Александр Ганин.
При этом искусственный интеллект применяют в медицине уже не первый год.
"Мы уже системно включаем в промышленную эксплуатацию новые алгоритмы, продолжаем прототипировать и подключать новые алгоритмы, и выводим в промышленную эксплуатацию в медицинских организациях и создаем этот рынок для разработчиков", - заявил Директор Центра диагностики и телемедицины Сергей Морозов.
А разработчики, в свою очередь, уже осваивают новое направление телемедицины. Совсем скоро они смогут определять факторы риска болезней сердца. Это поможет обнаруживать первые признаки инсульта или рассеянного склероза, а значит, вовремя лечить и спасать тысячи пациентов.
источник
Data science [ru]
Как правильно использовать инструменты Data Engineering? Узнайте бесплатно, посмотрев демо-занятие «Spark Data API» и День открытых дверей курса «Экосистема Hadoop, Spark, HiveI» по ссылке: https://otus.pw/VnxA/

Для доступа ко всем бесплатным мероприятиям курса пройдите вступительный тест: https://otus.pw/EZnl/

Успейте занять последние места на курсе «Экосистема Hadoop, Spark, Hive». Старт занятий 25 февраля. После обучения вы сможете писать распределенные приложения, работать с потоками данных, обрабатывать большие объемы данных и оптимизировать приложения.
источник
Data science [ru]
Сколько условных операторов типа if-else следует использовать для реализации алгоритма:
y = 1, если x > 0
y = 0, если x = 0
y = -1, если x < 0
#Программирование

Три - 10
👍👍 13%
Четыре
▫️ 0%
Два - 66
👍👍👍👍👍👍👍👍 87%
👥 76 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
                   ДВА

Подробнее про условные операторы, можно почитать здесь.
Язык праграммирования Pascal
источник
2021 February 19
Data science [ru]
Математика для Data Scientist: необходимые разделы

Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

статистика;
теория вероятностей;
математический анализ;
линейная алгебра.

Подробно
источник
Data science [ru]
Эта книга не только учебник, но и краткое руководство к решению задач. Излагаемые основы теории вероятностей и математической статистики сопровождаются большим количеством задач (в том числе экономических), приводимых с решениями и для самостоятельной работы. При этом упор делается на основные понятия курса, их теоретико-вероятностный смысл и применение. Приводятся примеры использования вероятностных и математико-статистических методов в задачах массового обслуживания и моделях финансового рынка.
источник