Size: a a a

Machine learning

2020 June 05

AR

Anton Rogozin in Machine learning
6 курс прохожу)
источник

RY

Ruslan515 Y in Machine learning
Pavel
в ответе просто представлена форма, из которой очень просто сделать новую функцию, аргументом которой и будет х-х0, а так ответы правильные. Непонятно только, зачем так сделано, проще просто разделить
Спасибо
источник

AR

Anton Rogozin in Machine learning
Артур Ким
Я бы примерно так же и ответил. Возможно, я бы добавил, что в ряде случаев (нормальное распределение и определенный доверительный интервал) можно примерно определить размер выборки, чтобы она была репрезентативной. Зная, сколько стоит условно одна запись, можно сказать, будет ли достаточно выделенного бюджета для формирования нужной выборки.
А вот про это забыл сказать, вполне толковая идея связать вопрос со статистикой. Спасибо
источник

A

Aroh in Machine learning
Anton Rogozin
На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?
Взял бы за X стоимость некоторой единицы данных. Потом посчитал бы, сколько данных надо для обучения некоторой модели. Получил бы стоимость данных для решения конкретной задачи. Такую стоимость получил бы для всех подходов. Ранжировал эти подходы по ожидаемой эффективности (хотя бы по пятибальной шкале). Получил бы сопоставление эффективности модели и стоимости её обучения.
источник

A

Aroh in Machine learning
В идеале, конечно, надо еще как-то стоимость железа посчитать, которое необходимо для обучения
источник

A

Aroh in Machine learning
Вы прям как никогда деньги на покупку продуктов не считали -))
источник

A

Aroh in Machine learning
и про хранение тоже правильно писали )
источник

K

K-S in Machine learning
Aroh
Взял бы за X стоимость некоторой единицы данных. Потом посчитал бы, сколько данных надо для обучения некоторой модели. Получил бы стоимость данных для решения конкретной задачи. Такую стоимость получил бы для всех подходов. Ранжировал эти подходы по ожидаемой эффективности (хотя бы по пятибальной шкале). Получил бы сопоставление эффективности модели и стоимости её обучения.
Как вы собираетесь считать кол-во данных, необходимых для обучения?
источник

A

Aroh in Machine learning
Я лично никак. Я еще этого делать не умею. Но если у вас нет понимания, сколько минимально надо данных для обучения модели, то на вопрос вы никак не ответите.
источник

K

K-S in Machine learning
Ну так я и скажу, что вопрос задан абы как.
источник

A

Aroh in Machine learning
Просто считать деньги я уже в научился, благо бэкграунд это в себя включает. А ML еще нет. Чтобы ответить на заданный вопрос надо уметь хотя бы как-то оценивать объем необходимых данных.
источник

A

Aroh in Machine learning
Это стандартный вопрос со стороны бизнеса
источник

A

Aroh in Machine learning
они всегда их задают вот так
источник

A

Aroh in Machine learning
почти всегда
источник

I

Ibp in Machine learning
мне кажется нужно сначала определиться с важностью данных, сделав контрольную закупку:) а потом уже оценивать, отфильтровав не нужные:)
источник

K

K-S in Machine learning
Типичные бизнес макаки
источник

A

Aroh in Machine learning
ну, если объем оценить невозможно, то можно идти итерационным подходом. Попробовать что-то сделать на маленьком объеме. На нем же оценить сколько необходимо для масштабирования и поддержания потом модели.
источник

A

Aroh in Machine learning
не знаю, насколько это ложится на возможности ML
источник

K

K-S in Machine learning
Там речь шла о картинках.
Во-первых, не озвучен ни тип задачи, который будет решаться, ни цель бизнеса не обозначена (чтоб мы могли под неё выбрать метрику), ни минимальный показатель качества, который бы устроил бизнес. Как без этого можно ответить на вопрос?
источник

Ю

Юрий in Machine learning
K-S
Как вы собираетесь считать кол-во данных, необходимых для обучения?
Если модель простая, аля линейная регрессия, можно получить доверительные интервалы для её коэффициентов. Дальше можно оценить количество объектов в выборке, необходимой для сужения интервалов до требуемой ширины. Требуемую щирину уже оценивать для конкретного бизнеса и задачи. Не пойдет?
источник