Size: a a a

AI / Big Data / Machine Learning

2020 January 09

R

Roman in AI / Big Data / Machine Learning
Vlad L
Какие проекты посоветуете для обучения??
А чем вы хотите заняться?
источник

VL

Vlad L in AI / Big Data / Machine Learning
Data analysis
источник

R

Roman in AI / Big Data / Machine Learning
Vlad L
Data analysis
Есьь множество открытых датасетов, даже целые коллекциии и системы поиска по ним. Есть у гугла и у кагла например. Можете пойти на кагл и попробовать силы в анализе чегото понравившегося.
источник

VL

Vlad L in AI / Big Data / Machine Learning
Roman
Есьь множество открытых датасетов, даже целые коллекциии и системы поиска по ним. Есть у гугла и у кагла например. Можете пойти на кагл и попробовать силы в анализе чегото понравившегося.
Спасибо за совет
источник

PL

Polina Lanina in AI / Big Data / Machine Learning
Roman
Нейронные сети это один из множества видов машинного обучения. Полину не слушайте говорит глупости.
Слушайте, конечно, Романа 😁) так то можно вообще всё широко называть машинным обучением или даже ИИ. Нейросети - это в первую очередь архитектура. Считаю , что противоречий в названий курса нет.
источник

R

Roman in AI / Big Data / Machine Learning
Polina Lanina
Слушайте, конечно, Романа 😁) так то можно вообще всё широко называть машинным обучением или даже ИИ. Нейросети - это в первую очередь архитектура. Считаю , что противоречий в названий курса нет.
У бустинга тоже есть архитектура. И что?
источник

R

Roman in AI / Big Data / Machine Learning
Есть один из типов классификации моделей на параметрические и непараметрические например
источник

R

Roman in AI / Big Data / Machine Learning
Нейросети это разновидность параметрических
источник

VL

Vlad L in AI / Big Data / Machine Learning
Насколько реально попасть в Биг Дату ,не имея математической базы ??
источник

R

Roman in AI / Big Data / Machine Learning
Vlad L
Насколько реально попасть в Биг Дату ,не имея математической базы ??
Devops например может
источник

R

Roman in AI / Big Data / Machine Learning
А еще менеджеры по продажам и маркетологи , хотя там своя математика тоже есть
источник

VL

Vlad L in AI / Big Data / Machine Learning
Я имею ввиду, насколько он реально с нуля дойти до реального результата в ML,DS и т д
источник

PL

Polina Lanina in AI / Big Data / Machine Learning
кто уже попал в бигдату? 😁 к тому вопрос: программный модуль расчётов, развёрнутый как облачный сервис, запускается по запросу из приложения. В облаке неколько экземпляров модуля расчётов. Каждый из них может одномоментно делать расчёт некоторых физических параметров оборудования в одном помещении большого промышленного здания. Чтобы сделать расчёт, модуль решает систему уравнений некоторой обратной задачи, кол-во которых от 2 млн. и более (часто 20 млн.- - 100 млн. - это задаётся пользователем). Потом решает прямую задачу  для визуализации распределения некоторого параметра на плоскости. В одном помещении может быть десятка два таких расчётов (а то и больше). А помещений в здании, например, 130 штук. И все, должны при необходимости считаться параллельно разными экземплярами модуля. Можно ли считать это бигдатой и насколько правильно использовать при развертывании в облаке всякие штуки типа Hadoop?
источник

СХ

Старый Хрыч in AI / Big Data / Machine Learning
Polina Lanina
кто уже попал в бигдату? 😁 к тому вопрос: программный модуль расчётов, развёрнутый как облачный сервис, запускается по запросу из приложения. В облаке неколько экземпляров модуля расчётов. Каждый из них может одномоментно делать расчёт некоторых физических параметров оборудования в одном помещении большого промышленного здания. Чтобы сделать расчёт, модуль решает систему уравнений некоторой обратной задачи, кол-во которых от 2 млн. и более (часто 20 млн.- - 100 млн. - это задаётся пользователем). Потом решает прямую задачу  для визуализации распределения некоторого параметра на плоскости. В одном помещении может быть десятка два таких расчётов (а то и больше). А помещений в здании, например, 130 штук. И все, должны при необходимости считаться параллельно разными экземплярами модуля. Можно ли считать это бигдатой и насколько правильно использовать при развертывании в облаке всякие штуки типа Hadoop?
всё зависит от бюджета, но те кто живут в облаке чеще уходят на s3 и парс файликов спарком
источник

СХ

Старый Хрыч in AI / Big Data / Machine Learning
экономически облако очень дорого, но проще с точки зрения менеджмента, потому это чисто вопрос стекхолдера и СТО с финдиром
источник

СХ

Старый Хрыч in AI / Big Data / Machine Learning
Polina Lanina
кто уже попал в бигдату? 😁 к тому вопрос: программный модуль расчётов, развёрнутый как облачный сервис, запускается по запросу из приложения. В облаке неколько экземпляров модуля расчётов. Каждый из них может одномоментно делать расчёт некоторых физических параметров оборудования в одном помещении большого промышленного здания. Чтобы сделать расчёт, модуль решает систему уравнений некоторой обратной задачи, кол-во которых от 2 млн. и более (часто 20 млн.- - 100 млн. - это задаётся пользователем). Потом решает прямую задачу  для визуализации распределения некоторого параметра на плоскости. В одном помещении может быть десятка два таких расчётов (а то и больше). А помещений в здании, например, 130 штук. И все, должны при необходимости считаться параллельно разными экземплярами модуля. Можно ли считать это бигдатой и насколько правильно использовать при развертывании в облаке всякие штуки типа Hadoop?
многое зависит от кол-ва данных, кол-ва клиентов и какой планируется рост
источник

PL

Polina Lanina in AI / Big Data / Machine Learning
ну клиентов одномоментно, например, 5-6 (я не могу пока прогнозировать точный рост, к сожалению). Но такие расчёты вестись будут не постоянно, а, например, раз в несколько месяцев для одного клиента (хотя может и больше). Но суть в том, что должна быть возможность максимального распараллеливания, иначе сейчас даже для 5 расчётов (плоскостей) считается минут 40. А ещё   важно, что расчёты должны быть многовариантными, то есть весь объём вычислений может быть повторен несколько раз. Очень классно, если получится интерактивность. То есть, пользователь ставит приоритет в расчётах для помещения с которым он сейчас работает, что бы сразу просматривать результат, а остальные на фоне пока считаются.
источник

PL

Polina Lanina in AI / Big Data / Machine Learning
Кстати, там на последнем этапе решения используются сейчас и простенькие алгоритмы ML, когда уже решения системы уравнений получены - это чуть ускоряет. Но основной затык по скорости вычислений всё-таки в решении этих неск млн. уравнений(
источник

PL

Polina Lanina in AI / Big Data / Machine Learning
а ещё вопрос, если клиент, например, в Южной Корее, это не принципиально, что у нас сервер в Москве (если делать всё на своём сервере и модель развёртывания SaaS) ? Или же нужно делать всё на коком-нибудь азуре, который на серверах по всему миру ?
источник

PL

Polina Lanina in AI / Big Data / Machine Learning
я вот читаю книжку и видео в интернете смотрю. Особо не вижу аналогичных примеров. Кстати, данные, которые поступают на вход для расчётов - это значения из атрибутов некоторого веб-приложения (чиловые), который модуль расчётов забирает и преобразует в словари python. В общем-то, Hadoop используется подход трансф-ции данных ELT, что было б полезным. Только вот основной вопрос: насколько целесообразно его использовать если большие массивы данных есть, а непрерывного потока нет (во всяком случае пока что)🤷🏻‍♀️
источник