Size: a a a

Data science [ru]

2020 December 30
Data science [ru]
Данные, инструменты для них и немного математики в канале Data_Science_News от кандидата физико-математических наук и выпускника программы MIT MicroMasters Андрея Степнова.

В одном месте собраны крутые материалы по статистике, актуальные научные работы из мира машинного обучения, инструменты Data Science.
источник
Data science [ru]
Polars: быстрая альтернатива Pandas для обработки датасетов
Polars — это открытая библиотека для обработки массивов данных на Python. По скорости работы библиотека обходит самый популярный инструмент для работы с данными, — Pandas. Кроме того, библиотека более эффективно работает с памятью при обработке массивов. Polars написана на Rust.
источник
2020 December 31
Data science [ru]
Python и анализ данных
Книгу можно рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Описаны те части языка Python и библиотеки для него, которые необходимы для эффективного решения широкого круга аналитических задач: интерактивная оболочка IPython, библиотеки NumPy и pandas, библиотека для визуализации данных matplotlib и др.
Издание идеально подойдет как аналитикам, только начинающим осваивать обработку данных, так и опытным программистам на Python, еще не знакомым с научными приложениями.
источник
Data science [ru]
С наступающим Новым Годом!

Ни дня без строчки кода – к творенью будь готов,
Программер от природы, ты спишь среди компов.
Пускай глаза краснеют – но настает момент,
Когда свое творенье ты презентуешь всем.

Пусть строчки льются ладно из клавиш под рукой,
И пусть твои программы забудут слово «сбой»,
Достойная оплата пусть ждет тебя всегда,
Печали пусть разгонит любимая твоя.
источник
2021 January 01
Data science [ru]
​​MakeltTalk
Один из самых забавных алгоритмов 2020 года, который умеет создавать анимацию под любую звуковую дорожку — в общем, метод похож на популярную технологию DeepFake, только «на вход» для анимации берётся не видео, а аудио.

У «MakeltTalk», над разработкой которого трудились в Азии, большой спектр использования — например, можно «оживить» розетку или рисунок, а также сделать анимацию лиц Мона Лизы и Эд Ширана.

https://youtu.be/rHnOr3oZ5VI
Google Colab
GitHub 
Страница проекта
источник
2021 January 02
Data science [ru]
​​GPT-3
Эта нейросеть от OpenAI летом впечатлила многих — она умеет очень реалистично, будто реальный человек, писать или дописывать тексты. Более подробно в этой статье, на самом деле полностью написанную нейросетью GPT-3 — тогда даже никто не заметил подвоха, что спровоцировало бурный «всплеск» новостей на тему.

Новое «детище» от OpenAI за полгода успели протестировать по достоинству — разработчики уже использовали её в генерации кода, новостей и статей, и многим понравились результаты. Можете заглянуть на этот сайт, если интересно больше примеров — там подобраны лучшие из лучших. GPT-3 стала одной из самых популярных нейросетей в 2020 году, и думаю, что заслуженно, качество генерации текста определённо завораживает!
https://youtu.be/OU6Ctzhpc6s
GitHub
Страница проекта
источник
Data science [ru]
Python для сложных задач. Наука о данных и машинное обучение
Подробное руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая интенсивная обработка данных, научные исследования и передовые разработки. Читатели, уже имеющие опыт программирования и желающие эффективно использовать Python в сфере Data Science, найдут в этой книге ответы на всевозможные вопросы, например:
1) как мне считать этот формат данных в мой скрипт? 2) Как преобразовать, очистить эти данные и манипулировать ими?
3) Как визуализировать данные такого типа? Как при помощи этих данных разобраться в ситуации, получить ответы на вопросы, построить статистические модели или реализовать машинное обучение?
источник
2021 January 03
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Какие допущения применяются к линейной регрессии?

Ответ:
Существует четыре основных допущения:

1. Есть линейная зависимость между зависимой переменной и регрессорами, то есть модель, которую вы создаете, соответствует имеющимся данным.
2. Ошибки или остатки данных обычно распределяются и независимы друг от друга. 
3. Существует минимальная мультиколлинеарность между объясняющими переменными.
4. Гомоскедастичность. (Означает, что дисперсия вокруг линии регрессии одинакова для всех значений предикторной переменной).

Дополнительные материалы:
medium.com
Основы линейной регрессии
источник
Data science [ru]
Каким запросом можно добавить запись в таблицу "Users"?

#SQL

ADD Users(“name”,”reg_date”) RECORD('user3000',now()) - 3
👍 3%
INSERT INTO Users(“name”,”reg_date”) VALUES('user3000',now()) - 99
👍👍👍👍👍👍👍👍 92%
INSERT Users FROM VALUES('user3000',now()) - 3
👍 3%
INSERT VALUES('user3000',now()) INTO Users  - 3
👍 3%
👥 108 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
INSERT INTO Users(“name”,”reg_date”) VALUES('user3000',now())
источник
2021 January 04
Data science [ru]
​​Self-Supervised Scene De-occlusion
#нейронные_сети#нейронные_сети

Эта программа вышла ещё в апреле, с помощью неё можно «разбить» изображение на объекты и «передвигать» их. По-моему наглядно показывает хороший кейс использования нейросетей, способных удалять фон с изображений — только здесь всё немного под другим «углом», ведь фон удаляется частично и только создаётся новый слой. Ну а те, кто тестировали разработку сообщают, что поражены её качеством.

GitHub
Страница проекта
источник
Data science [ru]
В будущем главным инструментом бизнеса будут Python и Data Science, а не Excel. С их помощью можно строить модели прогнозирования, выявлять скрытые зависимости в данных и анализировать большие объемы информации. Подробнее о функционале Python и Data Science расскажем на вебинаре.

За час вы:
⚡️Узнаете, какие бизнес-задачи решаются с помощью Python.
⚡️Разберетесь, чем Python лучше Excel.
⚡️Поймете, зачем бизнесу анализировать данные.
⚡️Познакомитесь с интересными кейсами применения Python.
❗️Поучаствуете в игре, чтобы закрепить знания.
❗️Получите призы.

Записывайтесь!
https://geekbrains.ru/link/ZCi7Qh
источник
Data science [ru]
​​Hypersim: датасет с разметкой изображений интерьеров от Apple
Hypersim — это датасет с фотореалистичными синтетическими изображениями интерьеров. Для каждого изображения доступны попиксельная разметка объектов и геометрия сцены. Датасет состоит из 77.4 тысяч изображений 461 сцены. 
Проблема
Для многих задач понимания сцены сбор попиксельной разметки объектов на изображениях является сложным или невозможным. Исследователи из Apple опубликовали синтетический датасет, который решает проблему недостатка данных для обучения моделей в задачах, где требуются изображения интерьеров с геометрией сцены.
Подробнее про датасет
Hypersim отличается следующими характеристиками:
Опирается исключительно на публично доступные 3D модели;
Включает в себя полную геометрию сцены, информацию о материалах и освещении;
Включает в себя попиксельную семантическую сегментацию для каждого изображения;
Учитывает точку обзора на сцену при смене эффектов освещения

github
источник
2021 January 05
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Объясните наиболее простым способом принцип работы MapReduce

Материалы для ответа:
stackoverflow.com
blogerator.org
bigdataschool.ru
источник
Data science [ru]
​​«Алису» научили говорить оригинальные тосты и создавать открытки
Разработчики из «Яндекса» научили голосового помощника «Алису» говорить уникальные тосты на любую тему, а также создавать открытки и мини поздравления. Технология основана на нейронной сети-трансформере. Об этом «Яндекс» сообщает в своем блоге.
Ранее «Алиса» тоже могла сказать тост, но использовала для этого заранее написанные варианты. Сейчас голосовой помощник создает тосты самостоятельно.
Для этого нужно сказать: «Алиса, скажи тост» и указать тему — «Алиса» предложит ответ.
«Темой может быть что угодно: любовь, технический прогресс, роботы-гитаристы. "Алиса" в любом случае не полезет за словом в карман и что-нибудь придумает», — отмечают разработчики.
Отмечается, что для создания тостов используются нейросети, применяемые в поиске «Яндекса». Они оценивают релевантность веб-страниц поисковому запросу.
Чтобы нейросеть смогла писать тосты, ее сначала обучили на большом массиве текстов из интернета: книг, статей и других документов. Так она усвоила общие правила, по которым составляются тексты на русском языке, и расширила свой словарный запас. Затем нейросеть дообучили на готовых тостах. Это позволило ей познакомиться с особенностями составления тостов, говорится в сообщении.
Для создания тостов компания предусмотрела два режима: умеренный и «без ограничений» — они отвечают за цензуру. Режимы доступны в настройках приложения.
Помимо тостов, «Алиса» научилась создавать новогодние открытки. Они, как правило, включают картинку и поздравительный текст-стишок. Картинка для открыток рисует нейронная сеть. За тексты отвечает «Автопоэт» — робот, который слагает стихи из поисковых запросов к «Яндексу».
Чтобы получить поздравление, нужно сказать: «Алиса, покажи открытку». Картинку можно сохранить в памяти устройства или переслать другому человеку. Если открытка не нравится, нужно повторить просьбу, и «Алиса» покажет другую.
Тосты можно слушать на любом устройстве с «Алисой»: умной колонке, компьютере, смартфоне. Открытки голосовой помощник показывает в приложении «Яндекса» и «Яндекс.Браузере» для мобильных устройств.
источник
2021 January 06
Data science [ru]
​​Horizon 8: современная платформа для гибридных и мультиоблачных развертываний

 VMware Horizon представляет собой современную платформу для безопасной доставки виртуальных рабочих столов и приложений. Уникальные возможности продукта позволяют упрощать управление приложениями, профилями, а также политиками. Благодаря современным подходам решение ускоряет работу и снижает затраты компании. Vmware Horizon предоставляет необходимые приложения и службы по требованию одним нажатием кнопки, что обеспечивает высокую производительность труда и помогает повысить мобильность и конкурентоспособность бизнеса.
источник
Data science [ru]
Отличаются ли в SQL операторы AND и &
#SQL

AND имеет более низкий приоритет по сравнению с & - 10
👍👍 13%
Оператор & не поддерживается стандартом SQL - 57
👍👍👍👍👍👍👍👍 72%
Приоритет AND выше, чем приоритет & - 3
👍 4%
Между ними нет отличий - 9
👍👍 11%
👥 79 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
AND имеет более низкий приоритет по сравнению с &
источник
2021 January 07
Data science [ru]
Секреты Python. 59 рекомендаций по написанию эффективного кода
Язык Python завоевал популярность благодаря тому, что позволяет новичкам почти сразу же браться за написание кода. Однако достигнуть цельного понимания уникальных возможностей Python чрезвычайно трудно, особенно если учесть, что на этом пути вас подстерегает множество скрытых ловушек.
Книга приобщит вас к стилю программирования, выдержанному в истинном "духе Python", и поможет научиться писать исключительно надежный и высокопроизводительный код
источник
Data science [ru]
​​Благодаря нейросети удалось создать новую методику вычисления волновых функций
Благодаря нейросети удалось создать новую методику вычисления волновых функций. Этот алгоритм, без привлечения суперкомпьютера, способен решать уравнения Шредингера для любых молекул и с большей вероятностью определять основные свойства веществ.
Нейросеть, получившую название PauliNet, разработали ученые из университета Берлина. В её основе заложен принцип Паули, согласно которому, два и более электрона в атомах не могут находиться в одинаковых квантовых состояниях. То есть при обмене электронами их волновая функция меняет знак.
Сначала нейросеть научилась исследовать произвольные молекулы квантовыми методами Монте-Карло. Они подразумевают решение уравнений Шредингера для большого количества частиц. Основная сложность при выполнении таких задач — необходимость больших вычислительных мощностей для определения многочастичной волновой функции. Обычно используют более простые методы, например Теорию функционала плотности (DFT) или связанные кластеры (CC).
Однако такие упрощения создают ряд ограничений и для многих соединений все равно оказываются практически бесполезными.
Данным способом авторам удалось cправится с задачей в считанные часы без использования суперкомпьютера
источник