Size: a a a

Data science [ru]

2020 December 16
Data science [ru]
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Очередь (Queue)
Эта структура — зеркальное отражение стека, поскольку в ней данные освобождаются по принципу FIFO (First-In-First-Out, «первый зашёл — первый вышел»). За примерами из реальной жизни далеко ходить не надо — очереди в магазинах, больницах и прочих ведомствах, увы, ещё не ушли в прошлое.
Разработчики применяют очереди, когда им нужно наладить совместное использование ресурсов несколькими процессами. Таким образом обеспечиваются мультизадачность, определение доступа к процессору, запись и чтение информации на жёстком диске.
Операции с очередями включают добавление новых или удаление старых элементов. На практике это используется, чтобы, например, сформировать стек, выстроить данные в том или ином порядке, сгенерировать некий ряд чисел.
источник
Data science [ru]
​​Он наконец-то заканчивается!

2020 год был непростым, и вы точно заслужили классный подарок🎁

Подкидываем вам идею, как побаловать себя и встретить следующий год с пользой. Начните заниматься английским!

Сейчас в сервисе Puzzle English (@puzzleng) действует скидка 50% на ежемесячную подписку. Полный доступ к тысячам упражнений по грамматике и аудированию, видеоурокам, играм, песням и книгам за 499 рублей в месяц.

Узнать больше о сервисе и оформить подписку➡️ https://u.to/y4_HGg
источник
Data science [ru]
 Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Связный список (Linked List)
Чаще всего люди учат стихотворение, запоминая одну строфу за другой. В процессе у читателя появляются ассоциации, которые вытягивают из памяти следующую строчку, пока человек не вспомнит весь стих. Это пример работы со связным списком, где каждый элемент (узел) связан со следующим, что позволяет перемещаться по структуре от одного блока к другому.
Эту конструкцию также можно сравнить с поездом: у него каждый вагон связан с двумя своими соседями. Два исключения — первый и последний вагоны, у которых по одной связи (ссылке). Если вы пройдёте поезд насквозь, вы фактически совершите путешествие по связному списку сидящих в нем пассажиров (согласно купленным билетам). В последнем вагоне выходная дверь будет закрыта — для оператора работы со списком это сигнал о достижении финального элемента.
Метод связных списков применяется при низкоуровневом управлении памятью: компьютер записывает данные в ячейки, запоминая порядок в цепочке, и обращается к нужным блокам по известному ему порядку.
Если на собеседовании на вакансию data scientist вас спросят, чем такая структура уступает массиву данных, скажите, что простые связные списки затрудняют случайный доступ к данным, равно как и их эффективное индексирование. В некоторых случаях базовые операции вроде определения последней ячейки занимают излишние ресурсы — ведь для этого нужно пройти по всей структуре.
С другой стороны, элементы связного списка можно легко добавлять и удалять без необходимости перестраивать весь объём данных. Поэтому эта структура активно используется в динамических операциях вроде отслеживания объекта, который постоянно меняет свое положение.
источник
2020 December 17
Data science [ru]
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
 Дерево (Tree)
С этой структурой программист знакомится на первых страницах своего первого учебника — именно деревья структурно соответствуют алгоритмам. Каждый последующий шаг такой цепочки зависит от принятого ранее решения. Если я поступлю в институт, то стану дата-сайентистом и совершу технологическую революцию, а провалю экзамен — научусь смазывать автомат и делать поправку на ветер.
Как нетрудно догадаться, операции с деревьями составляют значительную часть работы эксперта по data science — именно они лежат в основе рекомендательных систем и моделей искусственного интеллекта. Это оптимальный способ найти решение сложной задачи, которое зависит от нескольких параметров или условий.
Деревья делятся на множество типов — бинарные и n-арные, ориентированные и неориентированные, сбалансированные, даже красно-чёрные. Разницу между категориями определяют такие факторы, как количество развилок (узлов) на дереве, количество возможных на каждой ступени вариантов (дуг) и так далее. На собеседовании вас могут попросить найти высоту дерева, посчитать узлы на пути к заданной точке, определить связи между элементами.
источник
Data science [ru]
Кому и зачем нужны Data Engineer?
По мере того как данные становились стратегически важной составляющей бизнеса, а их сбор и анализ помогали получать все больше полезных инсайтов, наука о данных обрастала сразу несколькими сложными и похожими специализациями. На первый взгляд, они могут показаться дублирующими профессиями со смежными функциями: Data Scientist или исследователь данных, аналитик, Data Engineer или инженер данных, инженер по машинному обучению, администратор баз данных и др. Все эти специалисты используют в своей работе основной ресурс — данные, и их функции действительно пересекаются, но если приглядеться, то переплетающиеся роли довольно четко разделены, а с развитием Data Science и ее ответвлений они получат еще более ясное разграничение.
Data Scientist vs. Data Engineer
Возьмем, например, исследователя данных и инженера данных. Один другому просто необходим. Первый умеет анализировать данные, выстраивать модели и создавать хранилища данных. Но оказавшись лицом к лицу с поставленной бизнес-задачей, ему понадобятся именно те данные, с помощью которых он смог бы найти решение. К его большому сожалению, готовых к использованию данных в его распоряжении не будет, но они будут скрыты в различных хранилищах, и их еще нужно будет собрать и очистить. Вот здесь-то ему и понадобится помощь дата-инженера. Data Engineer отвечает за создание, обработку и поддержку каналов или пайплайнов данных, которые необходимы Data Scientist для анализа и решения бизнес-задач.
источник
2020 December 18
Data science [ru]
​​Что такое Arenadata Hadoop

Arenadata Hadoop (ADH) – это полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. ADH позволит вам быстро и просто в автоматическом режиме развернуть безопасный отказоустойчивой кластер для хранения и обработки больших данных как локально, так и в «облаках». Благодаря средствам мониторинга и управления конфигурацией кластера вы сможете быстро оптимизировать производительность всех компонентов своей Big Data системы.

Arenadata Hadoop является первой отечественной платформой Hadoop с открытым исходным кодом для распределенного хранения больших данных и параллельных вычислений. Благодаря регистрации продуктов Arenadata в Едином реестре российских программ, эти решения соответствуют политике импортозамещения и отлично подходят для использования в проектах цифровизации государственных организаций и частных компаний РФ.
источник
Data science [ru]
 Что из перечисленного верно для индекса в SQL

CREATE INDEX ID; - 62
👍👍👍👍👍👍👍👍 93%
CHANGE INDEX ID; - 2
👍 3%
ADD INDEX ID; - 3
👍 4%
👥 67 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️

      CREATE INDEX ID
источник
2020 December 19
Data science [ru]
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Префиксное дерево (Trie)
Отдельный вид деревьев представляет собой структуру, в которой путь до нужного элемента оказывается не последовательностью индексов, а неким «сообщением». Фактическую ценность представляет не содержание последней ячейки в цепочке, а процесс определения маршрута к ней.
Проще всего это понять на примере системы Т9. Вы вводите «м» — вам предлагается «а», «у» или «о». Нажмите «а», программа поймет, что вам не нужны ни «мука», ни «молоко», и подскажет слово «мама». Абсолютно также работают любые механизмы, которые предлагают варианты по мере ввода информации.
Именно на таких задачах можно объяснить, в чем заключается профессия исследователя данных. Этот метод также помогает определить географический адрес, подсчитать количество слов в языке или создать портрет типичного жителя какого-то региона.
источник
Data science [ru]
Ускоряйся! Наука DevOps. Как создавать и масштабировать высокопроизводительные цифровые организации
Можно ли с помощью технологий повышать прибыльность бизнеса? На протяжении многих лет нам говорили, что производительность команд программистов не так уж и важна, потому что она не может обеспечить конкурентное преимущество компании.
Основу этой книги составляют исследования с использованием строгих статистических методов, включая данные, собранные из отчетов о состоянии DevOps, проведенные совместно с Puppet доктором Николь Форсгрен, Джезом Хамблом и Джином Кимом. На протяжении четырех лет они искали способы измерения производительности доставки программного обеспечения и того, что ею управляет.
В этой книге представлены как результаты, так и научные подходы, которые стоят за этими исследованиями, чтобы вы могли применять все это на практике в своих организациях. Вы узнаете, как измерить производительность своих команд и в какие направления стоит инвестировать, чтобы повысить производительность.
источник
2020 December 20
Data science [ru]
​​Топ-7 языков программирования, которые популярны у работодателей в США
Dice.com с помощью технологии Burning Glass проанализировал IT-вакансии в Соединенных Штатах за 3 месяца. В итоге издание определило, знания каких языков местным работодателям требовались чаще всего.
Во главе списка оказался SQL. Этот язык предназначен для управления информационными данными в реляционных БД. За более чем 3 десятилетия своего существования он завоевал завидную популярность в своей области. Обратите внимание, что если вы хотите получить работу, связанную с данными и БД, вам нужно в дополнение изучить и пару производных языка структурированных запросов, в том числе NoSQL.
Почему же работодателям так нужен SQL?
Большинство компаний понимают: в сегодняшних реалиях обработка, хранение, изменение и анализ данных стали важными, как никогда (особенно после разгорания пандемии коронавируса и последовавшим массовым локдауном). А для выполнения данных задач требуются соответствующие специалисты со знанием SQL. 
Далее идет Java. И это совершенно не удивительно, учитывая чрезвычайную популярность этого языка в течение уже больше 25 лет. Огромное количество приложений, программ и сервисов были написаны именно на нем, и компании в дальнейшем обязательно будут поддерживать существующую кодовую базу. Большим плюсом Java стала ее концепция WORA, что расшифровывается как «write once - run anywhere» (т.е. «пиши только раз - запускай повсюду»). 
Третье место в списке занял Python.
Далее идут JavaScript, Microsoft C# и C++, а замыкает рейтинг язык Ruby.
источник
Data science [ru]
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Графы (Graphs)
Если следовать общепринятой логике, с графов следует начинать любой разговор о деревьях, ведь эта категория включает в себя абсолютно все такие структуры. Как гласит определение, дерево — это граф, в котором любые две вершины можно связать простой цепью, не проходя дважды по одному узлу.
А в целом любая структура с точками, соединенными между собой линиями, это и есть граф. Каждая вершина графа имеет свой вес, который влияет на результат проводимых вычислений. Карта метро, схема отношений внутри группы людей, модель внутрикорпоративных хранилищ данных — все это примеры подобных структур. На их основе работают навигаторы и системы управления перевозками, средства управления сетевыми ресурсами и множество других решений для вычисления оптимальных вариантов, что бы они собой ни представляли.
Соответственно, понимание графов позволяет вам вычислить минимальное время выполнения операции, посчитать экстремумы для заданных операций или количество циклов в рамках той или иной функции.
источник
2020 December 21
Data science [ru]
Эта книга расскажет вам, как работать с командами и инструкциями SQL, создавать и настраивать реляционные базы данных, загружать и модифицировать объекты баз данных, выполнять мощные запросы, повышать производительность и выстраивать систему безопасности.
источник
Data science [ru]
Какова функция команды GRANT в SQL?

Передача прав для выполнения определенных действий над таблицей - 46
👍👍👍👍👍👍👍👍 96%
Оставить все изменения в БД, до тех пор пока не закончится старая транзакция и не начнется новая - 1
👍 2%
Для смены логина и пароля пользователей
▫️ 0%
Отмечает начало блока в котором описаны команды другого языка - 1
👍 2%
👥 48 человек уже проголосовало.
источник
Data science [ru]
⬆️ Правильный ответ ⬆️
Передача прав для выполнения определенных действий над таблицей
источник
2020 December 22
Data science [ru]
​​Появились два аватара на основе ИИ, которые могут поддерживать разговор
Исследователи из США представили две модели на основе ИИ, которые могут вести повседневные разговоры с людьми. Инженеры хотят поддержать людей, пока они переживают жесткие карантинные меры из-за пандемии коронавируса.
Компания Fable Studio представила двух цифровых аватаров на основе ИИ, которые имитируют настоящих собеседников. Инженеры стартапа назвали их Чарли и Бек — исследователи утверждают, что они ведут такие же разговоры, как и обычные люди. Компания рассчитывает на то, что их персонажи будут коммерчески успешны на рынке, так как люди ищут развлечения во время пандемии коронавируса.
Компания Fable Studio начала свою деятельность как стартап, занимающийся развлечениями в виртуальной реальности (VR), и даже получила премию «Эмми» за проект Wolves in the Walls. Однако теперь компания вышла за пределы виртуальной реальности и сосредоточилась на существах на основе ИИ.
Протестировать аватаров можно на сайте компании. Персонажи работают с помощью технологии создания меток — инструмента на основе ИИ, который позволяет оживить персонажей с помощью визуальных эффектов, диалогов, голоса и анимации.
Пользователи смогут вести полноценные разговоры с Беком и Чарли. Специально для этого Fable Studio обучали модели на основе написанных и расшифрованных диалогов с людьми, также модель слушала тысячи разговоров обычных людей по телефону. Внутри модели работает система GPT3 — языковая модель, которая не переставая обучает модель правильным ответам и тематическим диалогам.
«Во время разработки мы думали о том, что у каждого человека есть свои маски, когда они вступают во взрослую жизнь. У всех есть профессиональная личность, семья и образ для друзей. В этом случае у моделей есть только общественное «я»», — отметили ученые.
источник
Data science [ru]
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
 Хеш-таблицы
Хеширование позволяет привязать к объектам уникальные идентификаторы и компактно держать их в защищённом виде. Для поиска нужного элемента применяется специальный ключ, по которому функция определяет нужную ячейку в хеш-таблице. Этот метод напоминает массивы данных: хеш-ключ выполняет роль индекса.
Производительность этой структуры данных зависит от хеш-функции, размера таблицы и эффективности борьбы с так называемыми коллизиями. Так называется ситуация, в которой два объекта получают одинаковый ключ. Фактически хеш-функция представляет собой вычислительную операцию. Коллизию можно сравнить с совпадением значений x в 2*6=x и 3*4=х. С этим явлением также связан известный парадокс, согласно которому в любой группе из более чем 23 участников, скорее всего, будут двое с совпадающим днём рождения (разумеется, в разные годы).
Следовательно, такие задачи могут упоминаться в ходе интервью на вакансию в data science. Разбейте список на пары с неким совпадающим параметром. Напишите скрипт для борьбы со списыванием на экзамене. Предложите способ для определения нежелательных лиц по видео.
источник
2020 December 23
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google.
Не исключено что и в российских компаниях могут задать такие же questions.

Расскажите о функции потерь деревьев решений.
источник
Data science [ru]
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое центральная предельная теорема? В чем заключается ее практический смысл?

Введение в центральную предельную теорему
Центральная предельная теорема — Википедия
Примеры использования ЦПТ
источник
2020 December 24
Data science [ru]
Герд Леонгард: «Через 10 лет все программисты станут безработными»
#мнение
Известный футуролог Герд Леонгард рассказал, какие навыки окажутся востребованы на рынке труда в будущем, отчего детей бесполезно учить точным наукам, и почему традиционный капитализм обречен
источник