Size: a a a

Data science [ru]

2020 December 24
Data science [ru]
Повышаем градус киберпанка уходящего года: в 2020 прошло первое нейросетевое Евровидение, AI Song Contest. Выступления участников можно посмотреть на youtube; местами они прокляты и это смешно. Смешнее, необычнее и криповее, чем Uno от Little Big. Отсюда вопрос: что будет с музыкой, если в нее уже пришли роботы?

Первая мысль, конечно: мы все умрем, мир захватят Grimes x Endel. На деле: и нет, и да. Нет — ИИ отлично дописывает, но сочиняет посредственно. Новый Боуи или новые Queen вряд ли будут на 100% цифровыми. Зато эмбиент для йоги и медитаций он пишет, как Брайан Ино, и каверы создает из чего угодно.

Здесь можно посмотреть на прогнозы от SberCloud. От ожидаемого: ТЦ перестанут приглашать на праздники кавер-группы, до экзотики вроде юридических тонкостей работы лейблов и ИИ. Последнее, если подумать, задел на целый раздел авторского права со своими спецами, судами, скандалами. Юристы, выдыхайте. Без работы вы не останетесь.
источник
Data science [ru]
Какие 5 встроенных функций существуют в SQL?

AVG, MAX, SUM, MIN, MULT - 2
👍 2%
SUM, AVG, MULT, MIN, DIV - 1
👍 1%
COUNT, SUM, AVG, MAX, MIN - 120
👍👍👍👍👍👍👍👍 97%
MIN, SUM, MAX, AVG, NAME - 1
👍 1%
👥 124 человека уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
COUNT, SUM, AVG, MAX, MIN
источник
2020 December 25
Data science [ru]
Утечка данных в Machine learning: как обнаружить и избежать ее

Утечка данных происходит, когда данные, используемые в процессе обучения, содержат информацию о том, что модель пытается предсказать. Это похоже скорее на «обман», но мы не знаем, так ли это, поэтому лучше назвать это «утечка». Утечка данных является серьезной и широко распространенной проблемой в области data mining и machine learning, которую необходимо решать для получения надежной и обобщенной прогностической модели. 
Существуют разные причины утечки данных. Некоторые из них очень очевидны, но некоторые сложно заметить с первого взгляда. В этой статье я объясню причины утечки данных, как она вводит в заблуждение, а также способы обнаружения и ее предотвращения.
источник
Data science [ru]
​​Облачные технологии развиваются очень быстро и умеющих с ними работать айтишников компании отрывают вместе с руками. 

Если вы junior- или middle-специалист, хотите карьерного роста и думаете о повышении квалификации — приходите в GeekBrains учиться на инженера облачных сервисов.

Будете работать с микросервисными архитектурами, управлять каталогами медиаданных, использовать ML-модели. Преподаватели курса — опытные эксперты из платформы Mail.ru Cloud Solutions. Научитесь настраивать облачное окружение для любой бизнес-задачи, а практика на курсе зачтется в портфолио готовым кейсом. Получите диплом о профессиональной переподготовке, а эйчары из GeekBrains помогут вам найти работу!

Записывайтесь прямо сейчас и получите востребованную специальность со скидкой 50%https://geekbrains.ru/link/eZJn0e
источник
Data science [ru]
Авторы системы на ИИ заявили, что она смогла решить уравнение Шредингера

Группа ученых из Freie Universit?t в Берлине разработала метод на основе искусственного интеллекта для вычисления основного состояния уравнения Шредингера в квантовой химии. Данное научное направление занимается предсказанием химических и физических свойств молекул, основываясь исключительно на расположении их атомов в пространстве, без ресурсоемких и трудоемких лабораторных экспериментов. Решение уравнения Шредингера может значительно упростить задачу предсказания.
источник
2020 December 26
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое сэмплирование? Сколько методов выборки вы знаете?

Материалы для ответа:
habr.com
Семплирование (математическая статистика) Вики
ebooks.grsu.by
Алгоритмы сэмплирования
Методы сэмплирования
источник
Data science [ru]
На VC.ru вышла интересная колонка руководителя Яндекс.Толоки Ольги Мегорской. В ней Ольга рассказала про самые распространенные гипотезы о разметке для машинного обучения и опровергла их на наглядных примерах из опыта команды Толоки.

Ключевые поинты:
✅качество модели зависит от количества и качества данных, на которых она тренируется. Разметка данных заслуживает и внимания, и ресурсов.
✅разметку данных можно и нужно делегировать. Это освободит время и ресурсы на разработку
✅в зависимости от задач и объёмов данных, заказчик может выбрать аутсорсинговое или краудсорсинговое решение. Разметку с помощью краудсорсинга можно организовать самостоятельно, а можно использовать автоматизированные процессы или обратиться к опытным специалистам.

Основной вывод: Не пренебрегайте разметкой данных. Не бойтесь делегировать. Пробуйте, ищите подходы, которые устроят именно вас.
источник
Data science [ru]
Что такое первичный ключ (primary key)? Укажите наиболее точное определение.

#SQL_задачи

Это синоним внешнего ключа (foreign key) - 2
👍 2%
Одна колонка, которая однозначно идентифицирует запись в таблице и может быть описана как автоинкремент - 26
👍👍👍👍 27%
Колонка, в которую можно писать только уникальные значения - 3
👍 3%
Одна или несколько колонок, которые однозначно идентифицируют запись в таблице - 62
👍👍👍👍👍👍👍👍 63%
Первая колонка в таблице - 5
👍👍 5%
👥 98 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
 Одна или несколько колонок, котрые однозначно идентифицируют запись в таблице
источник
2020 December 27
Data science [ru]
Чего ждать в сфере ИИ и машинного обучения в 2021 году?

Нейросети в этом году продолжали развиваться: они научились определять COVID-19 по кашлю, нашли применение в рекламе, спели голосом Эминема. Рассказываем о том, чего ждать в сфере ИИ и машинного обучения в 2021 году.
источник
Data science [ru]
Какой алгоритм сортировки (до 10 элементов) на практике является самым быстрым (при этом используется генератор случайных чисел и производится не менее 100 тестов для более объективной оценки)?
#Алгоритмы

Шейкерная сортировка - 3
👍👍 4%
Сортировка вставками - 36
👍👍👍👍👍👍👍 43%
Гномья сортировка - 3
👍👍 4%
Сортировка Шелла - 41
👍👍👍👍👍👍👍👍 49%
👥 83 человека уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Сортировка вставками
источник
2020 December 28
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
В чем разница между ошибками типа I и типа II?

Материалы для ответа:
Ошибки первого и второго рода
greelane.com
statistica.ru
ru.gadget-info.com
ru.qaz.wiki
источник
Data science [ru]
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
источник
Data science [ru]
Гиперграф это?
#Алгоритмы

Такого понятия не существует - 5
👍👍 10%
Обобщенный вид графа, в котором вершины могут быть инцидентными, не соединяясь при этом ребром - 3
👍👍 6%
Обобщенный вид графа, который содержит одновременно ориентированные и неориентированные ребра - 6
👍👍 13%
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин - 34
👍👍👍👍👍👍👍👍 71%
👥 48 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин
источник
2020 December 29
Data science [ru]
Новый алгоритм DeepMind самостоятельно освоил игры Atari
Разработчики DeepMind представили MuZero — алгоритм, который может справиться с любой игрой, не зная правил на начальном этапе. Вместо построения модели игровой среды MuZero использует информацию о текущем и предыдущем шаге, а также о возможном исходе одного из следующих шагов, в результате чего обучается играть самостоятельно. Алгоритм научили играть не только в классические для алгоритмов DeepMind го, сёги и шахматы, на также 57 игр для приставки Atari, включая Ms. Pac-Man. Статья опубликована в журнале Nature.
источник
Data science [ru]
Алгоритмы для начинающих. Теория и практика для разработчика
Алгоритмы правят миром! Эта книга в простой и наглядной форме дает ответы на целый ряд важнейших для начинающего программиста вопросов, начиная с «Что лежит в основе всех современных языков программирования и по каким принципам они строятся и работают?» и заканчивая «Есть ли способ овладеть всеми языками программирования сразу?».
источник
2020 December 30
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое линейная регрессия? Что означают P-значение, коэффициент, R-квадрат? Каково значение каждого из этих компонентов?

Материалы для ответа:
Линейная регрессия
P-значение
Коэффициент детерминации
Assumptions of Linear Regression
How to Interpret Regression Analysis Results: P-values and Coefficients
источник