Size: a a a

Data science [ru]

2020 June 26
Data science [ru]
источник
2020 June 27
Data science [ru]
«Ростелеком» совместно с Devar запускает платформу для детей с использованием нейросетевых технологий, искусственного интеллекта (AI) и дополненной реальности (AR). С помощью мобильного приложения дети смогут выполнять обучающие задания, рассказали в пресс-службе «Ростелекома».
Курсы разделены на три возрастные категории:
для детей 3-5 лет;
для детей 6-8 лет;
для детей 9-14 лет.
Учебные задания представлены в игровой форме. У ребёнка есть виртуальные помощники со своей историей и характером. Приложение помогает тренировать память, внимание, проводить опыты и эксперименты при помощи домашних предметов, снимать видео и фото для своих помощников в AR.
Помимо учебных материалов на платформе представлен развлекательный контент — музыкальная библиотека, в июле к ней добавятся детские книги, аудиокниги и различные видео. Подборка курсов формируется по интересам ребёнка.
источник
Data science [ru]
Интересные концепции: утиная типизация
Слышали фразу: "Если что-то выглядит как утка, плавает как утка и крякает как утка, то, вероятно, это утка"? Эта поговорка характеризует утиную типизацию == утипизацию
источник
2020 June 28
Data science [ru]
1. Не надо решать вопросы безопасности в последнюю очередь
2. Все приложения разные, у них разные нужды, поэтому выбирать технологии для разработки нужно, исходя из особенностей проектов. Не стоит ориентироваться на популярность технологий или поддаваться давлению руководства
3. Микросервисы нужны далеко не всем
4. Стандартизированное окружение разработки — это хорошо
5. Реализация подсистемы, отвечающей за настройки приложения, может оказаться более сложной, чем кажется на первый взгляд. Поэтому такие вещи нужно как следует планировать
6. Зависимости стоит использовать тогда, когда они нужны
7. Не нужно писать абстракции до тех пор, пока в этом не возникнет реальная необходимость
8. Иногда свой проект стоит «сжигать» и «возрождать из пепла»
9. Ваша компания — это не Google
10. Не стоит формировать свои взгляды на разработку ПО, полностью полагаясь на идеи случайных людей из интернета
источник
Data science [ru]
Что такое ETL?
ETL (от англ. Extract, Transform, Load — дословно «извлечение, преобразование, загрузка») — один из основных процессов в управлении хранилищами данных, который включает в себя:
извлечение данных из внешних источников;
их трансформация и очистка, чтобы они соответствовали потребностям бизнес-модели;
и загрузка их в хранилище данных.
С точки зрения процесса ETL, архитектуру хранилища данных можно представить в виде трёх компонентов:
источник данных: содержит структурированные данные в виде таблиц, совокупности таблиц или просто файла (данные в котором разделены символами-разделителями);
промежуточная область: содержит вспомогательные таблицы, создаваемые временно, и, исключительно для организации процесса выгрузки;
получатель данных: хранилище данных или база данных, в которую должны быть помещены извлечённые данные.
источник
2020 June 29
Data science [ru]
Чек-лист для Data Science
➡️Наука о данных (Data Science) — не магия, а ваш бизнес никто не знает лучше вас. Помогайте специалисту инсайтами и информацией о бизнес-процессах, и результат не заставит себя ждать. Знание и понимание предметной области критически важно.
➡️Для анализа данных нужны данные. Лучше, если их много и они адекватные. Модель никогда не будет лучше данных, которые ей дадут. Не забывайте принцип «Мусор на входе — мусор на выходе».
➡️Исследователь данных не волшебник, способный спрогнозировать все изъяны нашего мира. Не рассчитывайте на это.
➡️Всегда перед постановкой ML-задачи (машинное обучение) спрашивайте себя: принесет ли решение значимую выгоду? Если нет, не беритесь за нее.
➡️Определите, к какому результату должна стремиться модель, какие ошибки критичны, а какими можно пренебречь.
➡️Если вы знаете конечную цель оптимизации (деньги, время), сосредоточьтесь сразу на ней. Так весь процесс будет проще и прозрачнее.
источник
Data science [ru]
​​Основным понятием в Spark является RDD (Resilient Distributed Dataset), который представляет собой Dataset, над которым можно делать преобразования двух типов (и, соответственно, вся работа с этими структурами заключается в последовательности этих двух действий).
источник
2020 June 30
Data science [ru]
Tick Tok стремительно завоёвывает мир. Согласно данным Sensor Tower, это приложение для коротких видео было загружено более 2 миллиардов раз с App Store и Google Play. Что же за магия стоит за этим сенсационным приложением, вызывающим такое пристрастие со стороны пользователей? Не удивительно, что ответ кроется в рекомендательном движке на основе ML.
источник
Data science [ru]
Когда стоит использовать глубокое обучение

Глубокое обучение стоит использовать, когда:
более простые модели (логистическая регрессия) не дают требуемой верности;
требуется распознавать сложные паттерны в изображениях, NLP или звуковых данных;
размерность данных велика;
входные данные обладают временным измерением (последовательности).
источник
2020 July 01
Data science [ru]
Полезные инструменты: virtualenv + pip

Опыт показывает, что каждый проект обладает своими зависимостями (библиотеками), а если и одинаковыми, то версии не совпадают. Чтобы упростить запуск и настройку проекта разработчики пишут INSTALL.mdREADME.mdmake-файлы и что более важно - requirements.txt.
Файл requirements.txt - это правило хорошего тона для Python проектов. Файл содержит список необходимых библиотек для запуска с указанием версий:
источник
Data science [ru]
Наконец-то мы нашли этот канал!

Друзья, кто работает, учится или планирует начать заниматься программированием – welcome в Твой Программист.

🔥 Здесь есть всё, что нужно IT-специалисту: от статей до новостей, от обучения до юмора, от интерактива до просто полезных советов.

Автор собирает вокруг канала крутое коммьюнити, с которым познавать сферу будет ещё легче и интересней. Советуем подписаться 😌
источник
2020 July 02
Data science [ru]
Почему ошибаются алгоритмы машинного обучения

Мы часто слышим о том, как очередной сложный алгоритм искусственного интеллекта начал ошибаться или стал следовать предрассудкам, которым машины не должны быть подвержены. Почему так происходит?
Из-за чего появляются эти ложные положительные и отрицательные ответы и так ли это важно? Для начала давайте определим три термина из Матрицы смешения: точность, возврат и правильность.
источник
Data science [ru]
Компьютерное зрение против нежелательного видеоконтента

Хотите узнать о практических кейсах применения computer vision и machine learning? Тогда подключайтесь к нашему онлайн-митапу МТС и КРОК 8 июля в 19:00.

Участие бесплатно, регистрация по ссылке https://bit.ly/2NMBd1R
 
Мы расскажем про:
- анализ выкладки товаров на витринах в салонах МТС;
- классификацию текстов узконаправленной тематики в условиях малого - количества данных;
- детектирование нежелательного контента в видеопотоке;
- калибровку камеры для адаптации существующих детекторов к различным условиям.
источник
2020 July 03
Data science [ru]
Vaex (eng)
Vaex — это высокопроизводительная библиотека Python для ленивых DataFrame’ов, работающих по алгоритму out-of-core (обработка данных во внешней памяти). Предназначена она для визуализации и изучения больших наборов данных. Vaex может вычислять базовую статистику для более чем миллиарда строк за одну секунду. Она поддерживает несколько визуализаций, тем самым позволяя интерактивное изучение больших данных.
источник
Data science [ru]
Vaex против Dask
Vaex не похож на сам Dask, но имеет сходства с его DataFrame’ами, которые создаются на основе DataFrame’ов Pandas. Это означает, что Dask наследует проблемы Pandas, например необходимость полной загрузки данных в RAM для их обработки. В Vaex же этой проблемы нет.
Vaex не создаёт копий DataFrame’ов, а значит может обрабатывать более крупные DataFrame’ы на машинах с меньшим количеством основной памяти.
И Vaex, и Dask используют ленивую обработку. Единственное отличие в том, что первый вычисляет поле при необходимости, а для второго нам нужно явно использовать функцию вычисления.
Для того, чтобы полноценно воспользоваться преимуществами Vaex, данные должны быть в формате HDF5 или Apache Arrow.
источник
2020 July 04
Data science [ru]
lambda-функции
Python поддерживает интересный синтаксис, позволяющий определять небольшие однострочные функции на лету. Позаимствованные из Lisp, так называемые lambda-функции могут быть использованы везде, где требуется функция.
Небольшой пример...
источник
Data science [ru]
Google представил пользователям YouTube функцию с искусcтвенным интеллектом

Google SmartReply — это технология на основе искусственного интеллекта, которая помогает предлагать ответы на сообщения в Gmail, Android-сообщениях, Play Developer Console и других местах. В Google объявили о выпуске обновленной версии SmartReply, созданной для YouTube. Она позволит авторам легче и быстрее взаимодействовать со своими подписчиками в комментариях, сообщает Tech Crunch.
источник
2020 July 05
Data science [ru]
langid.pylangid.py
Представим ситуацию: есть блог, в котором публикуются посты на двух языках (а может и на 10). Необходимо рассортировать посты по языкам в разные RSS. (постов очень много, пускай 1000)
Вопрос - как вы решили бы такую задачу?
Чтобы решить подобную задачу можно воспользоваться библиотекой langid.py. Это небольшой инструмент, который без доступа в Интернет(!!!) может определить язык текста (и слова).
Инструмент работает и из консоли, и как web сервис, а также как обычный Python-модуль:
>>> import langid
>>> langid.classify("This is a test")
('en', 0.99999999099035441)
Ссылка на  инструмент:
https://github.com/saffsd/langid.py
источник
Data science [ru]
Для всех, кто интересуется Data Science и ищет работу в этом направлении — рекомендуем вам канал с предложениями по работе в этой области.
@datasciencejobs специализируется только на узкоспециализированных релевантных вакансиях: ничего лишнего, только лучшие вакансии по теме с обязательным указанием предлагаемой зарплаты.

Сбор, обработка и анализ данных; искуственный интеллект; нейросети; машинное и глубокое обучение; обработка натурального языка; рекомендательные системы; системы компьютерного зрения; распознавание образов и текстов; свёрточные сети и многое многое другое.

Приходите в мир науки и искусственного интеллекта
👉 https://t.me/datasciencejobs
источник
2020 July 06
Data science [ru]
*args, **kwargs
При написании кода не всегда хочется явно прописывать все аргументы. Например - на вход программы подается набор аргументов:
источник