Size: a a a

Data science [ru]

2020 November 29
Data science [ru]
⬆️ Правильный ответ ⬆️

Это сумма всех чисел в заданном диапазоне, от 1 до 100
источник
2020 November 30
Data science [ru]
Изучаем алгоритмы: полезные книги

Самые популярные книги для изучения алгоритмов:
Англоязычные:
Algorithm Design — Раскрывает суть решения задач, встречающихся в жизни.
Algorithms — Решения задач на Java, описание хороших практик ООП и бесплатные онлайн-курсы.
Data Structures Using C — Примеры использования структур данных.
Elementary Algorithms — Потрясающая книга об алгоритмах и структурах данных.
Grokking Algorithms — Книга об алгоритмах и их практических применениях с множеством иллюстраций.
источник
Data science [ru]
Java. Объектно-ориентированное программирование

Учебное пособие предназначено для изучающих объектно-ориентированное программирование в вузе, а также для всех желающих самостоятельно изучить язык программирования Java. Книга охватывает все базовые темы, необходимые для эффективного составления программ на Java, в том числе базовые типы данных, управляющие инструкции, особенности описания классов и объектов в Java, создание пакетов и интерфейсов, перегрузку методов и наследование. Особое внимание уделяется созданию приложений с графическим интерфейсом.
источник
2020 December 01
Data science [ru]
Векторное представление слов (Word Embeddings)
Как нетрудно догадаться, этот метод используется для работы с текстом в NLP-системах (Natural Language Processing). Компьютеры не понимают человеческий язык, хотя в последнее время им и удается более-менее успешно производить обратное впечатление. Это становится возможным благодаря техникам «цифровизации» слов, которые переводят их семантическое значение в векторы.
Для этого используются самые разные атрибуты — количество букв в слове, теги обозначения частей речи и грамматических отношений между ними, векторные нотации и многое другое. Эти данные помещаются в n-мерное пространство, где аналитическая модель определяет между ними взаимосвязи, выстраивает контекстные цепочки и так далее.
Таким образом нейросеть может переварить некий языковой корпус и строить на его основе предложения. Собственных мыслей у компьютера нет, так что от своего лица он может только нести грамматически верную чушь. А понимать поступающие реплики и формировать ответы на них таким образом получается очень хорошо.
источник
Data science [ru]
Машинное обучение — это просто?

Математика, физика и даже информатика, чаще всего преподаются с использованием восходящего подхода: темы логично следуют одна за другой, постепенно усложняясь и расширяясь. Но для успешного освоения того или иного навыка нужны ещё и мотивация, азарт и возможность видеть результат.
Повседневные навыки, такие как чтение, вождение и готовка, мы получили прямо противоположным путём — используя нисходящий подход. Он делает изучение технических навыков не только быстрее и продуктивнее, но и интереснее.
В этой статье речь пойдёт о принципиальной разнице между этими подходами и о том, какой подход лучше использовать для изучения машинного обучения.
источник
2020 December 02
Data science [ru]
Классификация языков программирования

Классификация и виды языков программирования – это очень сложный, многообразный вопрос, который постоянно вызывает споры, требует регулярной переоценки и умения находить в различных языках объединяющие их характеристики и особенности. Сейчас существует огромное количество самых разных языков программирования. По некоторым подсчетам, всего их более чем 120. Некоторые из них очень распространены и популярны (C++, Java, Python), некоторые известны только узкому кругу специалистов и любителей экзотики (Groovy, Clojure, Boo)
источник
Data science [ru]
Хочешь освоить востребованную профессию? Data Scientist — одна из самых перспективных и высокооплачиваемых специальностей в IT-сфере!
Попробуй свои силы на бесплатном интенсиве Skillbox.

Регистрируйся по ссылке: 👉 https://clc.to/VQGf1Q.

Тебя ждут:
✔️ основы анализа данных и машинного обучения;
✔️ программирование на Python;
✔️ работа с библиотеками Matplotlib и scikit-learn;
✔️ выгрузка и визуализация данных;
✔️ оценка качества моделей.


💼 В результате ты создашь проект, который станет частью твоего портфолио — программу, предсказывающую курс доллара.

📌 У тебя будет шанс получить грант на 30 000 рублей для обучения в Skillbox!
источник
2020 December 03
Data science [ru]
3 причины, почему Tensorflow - самый популярный фреймворк машинного обучения

TensorFlow за короткий промежуток времени стал самым популярным инструментом и фреймворком для машинного обучения. Он пользуется огромной популярностью среди инженеров и разработчиков машинного обучения.
Вот три причины популярности TensorFlow:

1. Самая распространенная платформа ИИ, доступная для разработчиков.
TensorFlow - единственная доступная среда для запуска моделей машинного обучения от облака до мельчайших микроконтроллеров.

2. TensorFlow - это часть основной управляемой публичным облаком ML PaaS.
TensorFlow является неотъемлемой частью общедоступных облачных платформ. Он поддерживает API-интерфейсы для компьютерного зрения, обработки естественного языка, персонализации и рекомендаций.

3. Обширная поддержка инструментов и интеграции.
TensorFlow - это больше, чем просто фреймворк для машинного обучения или инструментарий. По сути, это платформа для управления всем жизненным циклом приложений ИИ.
источник
Data science [ru]
Главная платформа на рынке краудсорсинга в России, Яндекс.Толока, проведеут воркшоп на конференции NeurIPS 2020 - мероприятии мирового масштаба в области искусственного интеллекта.

Обсуждение будет крутиться вокруг актуальных на сегодня тем в индустрии краудсорсинга:
📍Удалённая работа. Насколько эффективна может быть удалённая работа на краудсорсинговых платформах.
📍 Справедливость. Как краудсорсинговая платформа может обеспечивать исполнителям гибкость в выборе задач и рабочих часов.
📍 Механизмы. Двусторонние механизмы, которые не только обеспечивают гибкость исполнителям, но и гарантируют качество результата и эффективность процесса заказчикам.

Подробнее о воркшопе по ссылке.
источник
Data science [ru]
Нейросети учатся определять, когда они недостаточно компетентны.

Такое качество необходимо искусственному интеллекту, который принимает решения в областях, влияющих на жизнь людей.

Помимо трех законов робототехники искусственному интеллекту понадобится еще обязательное понимание пределов своих возможностей, заявили ученые. Нейронные сети с глубоким обучением предназначены для имитации человеческого мозга, взвешивая множество факторов и выявляя закономерности в массивах данных, которые люди не в состоянии проанализировать. Однако такая система должна осознавать случаи, когда она ненадежна, рассказывает Science Alert
«Нам нужна способность не только иметь высокопроизводительные модели, но и понимать, когда мы не можем доверять этим моделям», — сказал автор новой разработки, программист Александр Амини из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) в США.
источник
2020 December 04
Data science [ru]
Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих | Бхаргава Адитья

Алгоритмы - это всего лишь последовательность решения задач, и большинство таких задач уже были кем-то решены, протестированы и проверены. Можно, конечно, погрузиться в глубокую философию гениального Кнута, изучить многостраничные фолианты с доказательствами и обоснованиями, но хотите ли вы тратить на это свое время? Откройте великолепно иллюстрированную книгу и вы сразу поймете, что алгоритмы - это просто. А грокать алгоритмы - это веселое и увлекательное занятие.
источник
Data science [ru]
Как называется свойство алгоритма, означающее, что данный алгоритм применим к решению целого класса задач?

Понятность - 4
👍 3%
Определённость - 4
👍 3%
Результативность - 5
👍 4%
Массовость - 107
👍👍👍👍👍👍👍👍 89%
👥 120 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️

Массовость - свойство, когда по данному алгоритму должна решаться не одна, а целый класс подобных задач.
источник
2020 December 05
Data science [ru]
Изучаем алгоритмы.

Онлайн-практика для того, чтоб оттачивать свои навыки:
ACM-ICPC Live Archive — Сотни задач с предыдущих региональных состязаний ACM-ICPC и мировых состязаний World Finals.
AIZU ONLINE JUDGE — Японская онлайн практика.
CodeChef — Больше задач и ежемесячные состязания.
Codeforces — Единственный сайт, где можно посостязаться в знаниях платформы Web 2.0.
CodeWars — Веб-сайт, который предлагает задачи по алгоритмам на многих языках и для многих уровней сложности.
CoderByte — Скромный веб-сайт с задачами на оттачивание алгоритмов для начального и продвинутого уровней. Поддерживает множество популярных языков программирования, таких как С++, Python, JavaScript, Ruby и так далее.
HackerEarth — Решайте задачи, используя алгоритмы и принимайте участие в решении задач, которые задают при приёме на работу.
HackerRank — Онлайн практика по известным алгоритмам и функциональном программировании.
Infoarena — Румынская онлайн-практика. 1500+ задач по алгоритмам.
LavidaOnlineJudge — Корейская онлайн-практика(около половины на английском) 1300+ задач.
Learneroo Algorithms Tutorials — Учитесь и практикуйтесь в написании алгоритмов, решая задачи онлайн.
LeetCode — Выучите алгоритмы и подготовьтесь к интервью.
PKU JudgeOnline — Китайская онлайн-практика.
ProjectEuler — Математические задачи, которые могут быть решены с использованием алгоритмов (или даже с помощью карандаша, зависит от того, сколько вы уже знаете).
Rosalind — Платформа для изучения биоинформатики и программирования, решая задачи.
ShareCode — Онлайн практика и состязания с множеством задач по алгоритмам.
Snakify — Вводный курс по Python с 100+ задачами по алгоритмам и отладке (российский).
SPOJ — Еще больше задач.
TopCoder — Множество задач по графическому дизайну, анализу данных и разработки в целом.
URI — Бразильская онлайн-практика. Не так много задач по сравнению с конкурентами, но их база растет, а также у них есть онлайн-состязания.
UVA — Ещё много задач с предыдущих региональных состязаний ACM-ICPC и мировых состязаний World Finals.
источник
Data science [ru]
Линейная алгебра для Data Science.

Латентный семантический анализ (Latent Semantic Analysis, LSA)
Когда вы читаете предложение «Я увидел каменный замок, на его воротах висел замок», вы легко распознаете значения двух омонимов. Аналогично, вам несложно подобрать синоним к какому-либо слову — вы понимаете его значение и представляете, чем можно его заменить. Однако компьютеру такие операции даются с трудом, и создателям NLP-продуктов приходится придумывать, как обеспечить их системе возможность понимать контекст.
В этом им снова помогает алгоритм сингулярного разложения. Они разбивают некий объем текстовых материалов на меньшие матрицы, по которым можно соотнести тему, ее контекст и употребляемые термины. Такое разложение помогает найти внутренние связи в массивном наборе текстов и понимать контекстуальное значение слов.
источник
2020 December 06
Data science [ru]
Плох тот джун, который не хочет стать синьйором

Для того, чтобы разработчик развивался, ему нужно понимать вектор своего роста. Он должен четко понимать чего ему не хватает для того, чтобы стать разработчиком того или иного уровня.

В статье изложен метод систематизации работы программиста (eng)
источник
Data science [ru]
Линейная алгебра для Data Science

Тензоры и работа с изображениями
Как вы знаете, вектор — это простой массив данных, матрица — массив двухмерный, а тензор объединяет n измерений, где n>2. Компьютерные системы используют эти структуры, чтобы видеть и понимать изображения.
Для передачи цвета в цифровых изображениях используется шкала RGB — Red, Green, Blue. Когда аналитическая модель получает некую картинку, она создает тензор, который объединяет в себе три матрицы, у которых в каждой ячейке хранится цветовое значение соответствующего пикселя. Первая такая матрица содержит значения красного, вторая — зеленого, третья — синего.
источник
2020 December 07
Data science [ru]
Линейная алгебра для Data Science

Функция свертки
Функция свертки, позволяет определять объекты на изображениях. Механика, в общем-то, напоминает работу человеческого мозга — модель запоминает некий образ, а потом внимательно рассматривает предложенную картинку, чтобы найти его среди пикселей.
Для компьютера такой образ представляет собой сумму значений пикселей, которые составляют изображение целевого объекта. Эта сумма называется ядром. Имея в своем распоряжении такое ядро, программа поочередно сравнивает его с разными участками изображения. В том участке, где совпадение оказывается максимальным, она и предполагает наличие искомого объекта.
Этот механизм также можно использовать, чтобы повысить или понизить четкость изображений, наложить на него разнообразные фильтры. Принцип один и тот же — когда нейросеть распознает определенные объекты, она может проводить с ним требуемые операции.
источник
Data science [ru]
Java. Эффективное программирование.

Эта книга писалась с той целью, чтобы наиболее эффективно использовать язык программирования Jаvа ТМ и его основные библиотеки jаvа.lang, java.util и java.io. В книге рассматриваются и другие библиотеки, но мы не касаемся графического интерфейса пользователя и специализированных API. Книга состоит из пятидесяти семи статей, каждая из которых описывает одно правило. Здесь собран опыт самых лучших и опытных программистов. Статьи произвольно распределены по девяти главам, освещающим определенные аспекты проектирования программного обеспечения. Нет необходимости читать эту книгу от корки до корки: каждая статья в той или иной степени самостоятельна. Статьи имеют множество перекрестных ссылок, поэтому вы можете с легкостью построить по книге ваш собственный учебный курс.
источник
2020 December 08
Data science [ru]
Найден способ уверенно распознавать дипфейки?

Нейросети сегодня умеют создавать настолько правдоподобные изображения, что их порой сложно отличить от реальных фотографий. Такие изображения, называемые дипфейками, могут быть любопытными и забавными, но лишь до тех пор, пока все понимают, что это подделка. Когда же кто-то пытается выдавать дипфейки за чистую монету, они превращаются в большую проблему.
источник