Size: a a a

Data science [ru]

2021 January 07
Data science [ru]
источник
2021 January 08
Data science [ru]
Простое введение в пересекающиеся числа графов
Число пересечений графов - интересная тема в дискретной геометрии, теории графов, рисовании графов и информатике. Несмотря на простоту по своей сути, он поддается гораздо более сложным идеям.
источник
Data science [ru]
VS Code — мой любимый редактор кода. Это — самый популярный из существующих редакторов, возможности которого можно расширять практически до бесконечности. И, что удивительно, разработала его компания Microsoft. Я полагаю, что ни один из других редакторов и ни одна из других IDE не может дать разработчику хотя бы половину того, что способен дать ему VS Code. Одна из сильных сторон VS Code — это система расширений. Она позволяет создавать расширения буквально на все случаи жизни. Хочу рассказать вам о моём топ-10 расширений для VS Code.
источник
2021 January 09
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое статистическое взаимодействие?

Материалы для ответа:
wikipedia
icbseverywhere.com
источник
Data science [ru]
The Wisdom of Crowds

Алгоритм The Wisdom of Crowds (Мудрость Толпы) является одной из реализаций коллаборативной фильтрации. Его работа основывается на том, что группа людей обладает большими знаниями, чем индивид, в то время как каждый отдельно взятый человек может улучшить производительность группы за счет своего конкретного ввода информации.

Возьмем пример из истории. В 1906 году, во время выставки жирного скота и птицы в Западной Англии, Фрэнсис Гальтон открыл математические и статистические закономерности групповых средних оценок и их преимущества перед индивидуальными. На этом мероприятии группа оценщиков успешно обеспечила среднее значение веса быка, удивительно близкое к реальному значению.

В качестве необходимых условий работы данного алгоритма присутствуют сведения о «толпе».
Толпа должна:
быть децентрализованной, чтобы никто «сверху» не диктовал ответ толпы;
быть в состоянии составить свое собственное мнение, основанное на индивидуальных знаниях участников;
предлагать коллективный вердикт, который суммирует мнения людей;
быть независимой — когда каждый ее участник фокусируется на имеющейся информации, а не на чужих мнениях.
Одним из возможных минусов вышеописанного подхода может быть потенциальное возникновение феномена группового мышления. Участники, не обладающие достаточными знаниями, могут следовать за более осведомленными в вопросе людьми и давать похожие ответы. Также социальное влияние может привести к тому, что среднее значение ответов толпы будет неточным, в то время как среднее геометрическое и медианное — пребывать в норме. Качество предсказаний может зависеть и от формулирования вопросов — толпа в целом работает лучше, когда есть правильный ответ на поставленный вопрос, например, вопрос о географии или математике. Когда нет точного ответа, толпа может прийти к произвольным выводам.
источник
2021 January 10
Data science [ru]
Самые упоротые и забавные расширения для браузера: подборка
Иногда разработчики “Желают странного” (С) А. Б. Стругацкие, из-за этого появляются необычные проекты, вроде запуска Doom на терминалах для считывания банковских карт и других, еще менее приспособленных для этого, девайсах. Чаще всего такое получается в результате тренировок, когда программист осваивает новую тему и реализует тестовый проект не в виде традиционного “Hello, Word!”, а чего-то более изощренного. Но ведь не все занимаются портированием древних шутеров на смарт-часы, есть и другие области разработки, более прикладные, но не менее интересные. Предположим, что человеку наскучило смотреть на длинные логи в консоли и grep’ать из них данные для отладки, хочется добавить интерактива и наглядности в свое обучение. Инструменты для этого выбираются самые разные, кто-то пользуется обычным графическим выводом, кто-то выводит данные через простенький сайт, а кто-то… пишет расширения для браузера!
источник
Data science [ru]
Технологии анализа текстовой информации стремительно меняются под влиянием машинного обучения. Нейронные сети из теоретических научных исследований перешли в реальную жизнь, и анализ текста активно интегрируется в программные решения. Нейронные сети способны решать самые сложные задачи обработки естественного языка, никого не удивляет машинный перевод, «беседа» с роботом в интернет-магазине, перефразирование, ответы на вопросы и поддержание диалога. Почему же Сири, Алекса и Алиса не хотят нас понимать, Google находит не то, что мы ищем, а машинные переводчики веселят нас примерами «трудностей перевода» с китайского на албанский? Ответ кроется в мелочах — в алгоритмах, которые правильно работают в теории, но сложно реализуются на практике. Научитесь применять методы машинного обучения для анализа текста в реальных задачах, используя возможности и библиотеки Python.
источник
2021 January 11
Data science [ru]
Итоги 2020 года: самые интересные AI-решения и проекты

В последние годы на рынке IT наблюдается настоящий бум в области решений на базе искусственного интеллекта. И в этом нет ничего удивительного: современные вычислительные и нейросетевые технологии достигли уровня, позволяющего AI-системам решать весьма сложные для человека практические задачи, а разработчикам — создавать инновационные приложения и сервисы, демонстрирующие безграничный потенциал электронного разума.
источник
Data science [ru]
Ученые из MIT предложили ИИ решить проблему ядерной энергии в форме игры

В новом исследовании ученые показали, как глубокое обучение с подкреплением можно использовать для разработки более эффективных ядерных реакторов. На это их вдохновили успехи ИИ в настольных играх.
Сейчас ядерная энергия дает больше безуглеродной электроэнергии в США, чем солнечная и ветровая вместе взятые. Это делает ее ключевым игроком в борьбе с изменением климата. Однако методы ее добычи несовершенны и устаревают. Необходимо оптимизировать процесс, чтобы ядерная энергетика могла конкурировать с угольными и газовыми электростанциями на рынке.
источник
2021 January 12
Data science [ru]
Датасеты, необходимые для отработки навыков DS и создания отличного портфолио

Единственный способ изучить data science, data analysis, machine learning или темы искусственного интеллекта — это практиковаться или выполнять проекты. Альтернативы этому нет. Но по большому счету приходится тратить много времени на поиск подходящего набора данных. В этой статье ты найдешь датасеты, которые могут быть полезными новичкам. Каждый датасет привязан к определенной DS-теме.
источник
Data science [ru]
Какая из команд применяется для чтения записей в SQL

READ - 7
👍 5%
SELECT - 139
👍👍👍👍👍👍👍👍 95%
QUERY - 1
👍 1%
👥 147 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
          SELECT
источник
2021 January 13
Data science [ru]
10 лучших навыков инженеров по обработке данных в 2021 году
Инженерия данных становится все более востребованной профессией, и, несмотря на бурный 2020 год, приведенная выше диаграмма показывает, что спрос на нее больше, чем когда-либо. Из-за пандемии рабочих мест в апреле было мало, но они быстро восстановились до наступления традиционного летнего затишья, а затем спрос значительно вырос в последнем квартале 2020 года
источник
Data science [ru]
Пять вопросов на собеседовании, чтобы определить хорошего специалиста по данным
Тем из нас, кто работает в этой профессии, мы постоянно напоминаем о резкой нехватке специалистов по обработке данных .Положение будет только ухудшаться, прежде чем начнутся улучшения, поскольку спрос на такие технологии, как машинное обучение , искусственный интеллект и глубокое обучение, находится на такой восходящей стадии. В результате этого дефицита мы видим, как многие люди ощущают возможности высокооплачиваемой занятости и переходят из других профессий. В результате этого натиска проблема для работодателей очевидна: вы не всегда получаете лучших кандидатов на свои открытые должности.
источник
2021 January 14
Data science [ru]
Инфлюенсеры в Big Data и Machine Learning: за кем следить в 2021 году?
Инфлюенсеры – это лидеры мнений. Обычно – пользователи социальных сетей, которые имеют обширную и лояльную аудиторию. Big Data и ML – одни из самых быстро развивающихся сфер в ИТ, поэтому специалистам важно следить за инфлюенсерами и влиятельными сообществами. Ведущие профессионалы отрасли регулярно делятся с широкой аудиторией опытом, а также последними разработками и новостями.
В данной публикации собраны влиятельные инфлюенсеры в сфере Big Data и ML, а также сообщества, на которые стоит подписаться в 2021 году.
Предлагаем вашему вниманию подборку самых влиятельных сообществ и инфлюенсеров в сфере Big Data и Machine Learning.
Сообщества
Big Data and Analytics
Сообщество LinkedIn, в котором собраны не только курсы и офферы для аналитиков Big Data, но и вся актуальная информация от ведущих экспертов области. Сообщества на LinkedIn – одно из лучших мест для энтузиастов данных и начинающих ученых, желающих овладеть искусством работы с большими данными. Активное участие в дискуссиях и собственные публикации дают возможность укрепить знания, найти наставника и расширить сеть профессиональных контактов.
Data Science Central
Твиттер-аккаунт одного из самых известных сообществ Data Science, где вы найдете новости о последних технологиях Big Data, машинного обучения, AI, Deep Learning, dataviz, Hadoop, IoT, и BI. Data Science Central объединяет пользователей, которые хотят получить уникальный опыт участия в дискуссиях на темы сбора и интеграции, а также аналитики и визуализации данных. Построенное на инновационной платформе сообщество включает технические форумы и сведения о рыночных тенденциях, а также дает возможности социального взаимодействия и трудоустройства.
DataDriven
В DataDriven работают над проектами на стыке науки о данных и социального воздействия в таких областях, как международное развитие, здравоохранение, образование, исследования и охрана природы, а также общественные услуги. Платформа работает над тем, чтобы предоставить организациям больший доступ к возможностям науки о данных, и привлечь больше ученых-исследователей к решению социальных задач, где их навыки могут иметь значение.
источник
Data science [ru]
Три гипотезы о разметке данных, которые мы опровергли
Разметка — подготовка данных для машинного обучения. Мы познакомились с разными подходами к ней, развивая ML-проекты в Яндексе и изучая опыт других компаний. Проверили гипотезы, на которых основаны эти подходы, и отказались от некоторых из них. От каких и почему — рассказывает руководитель Яндекс.Толоки Ольга Мегорская.
источник
2021 January 15
Data science [ru]
Оживляем деревья выражений кодогенерацией

Expression Trees — это, пожалуй, самое удобное средство манипуляции кодом в run-time.
Расширять код метапрограммами в compile-time позволяют Roslyn Source Generators, с ними это стало проще, чем когда-либо.
Пора использовать одно во благо другого, даже если мир к этому еще не совсем готов.
источник
Data science [ru]
Выберите верный синтаксис DELETE выражений.
#SQL

DELETE FROM ORDER BY - 1
👍 1%
DELETE FROM WHERE - 79
👍👍👍👍👍👍👍👍 94%
DELETE WHERE - 4
👍 5%
DELETE FROM HAVING
▫️ 0%
👥 84 человека уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
  DELETE FROM WHERE
источник
2021 January 16
Data science [ru]
В учебном пособии изложены основные методы анализа данных в статистическом пакте IBM SPSS Statistics 22: подготовка данных для анализа (описательные статистики, создание набора данных, построение частотных распределений, интервальная оценка генеральной средней); статистические гипотезы (t-критерий Стьюдента, критерий Колмогорова–Смирнова, критерий χ2, U-критерий Манна–Уитни, критерий знаковых рангов Вилкоксона, дисперсионный анализ); корреляционный и регрессионный анализ (парная корреляция, парная линейная регрессия, многофакторная регрессия, нелинейная регрессия, логистическая регрессия, временные ряды); классификация и снижение размерности данных (дискриминантный анализ, факторный анализ, иерархический кластерный анализ, метод К-средних, дерево решений). Изложение материала рассмотрено на примерах, позволяющих получить навыки практического применения анализа данных в социально-экономических исследованиях.
источник