Телеграмм чат группы datasciencecourse страница 3465

10:43пожаловаться #1

Ruslan515 Y in Machine learning

Pavel

в ответе просто представлена форма, из которой очень просто сделать новую функцию, аргументом которой и будет х-х0, а так ответы правильные. Непонятно только, зачем так сделано, проще просто разделить

Спасибо

10:46пожаловаться #2

Anton Rogozin in Machine learning

Артур Ким

Я бы примерно так же и ответил. Возможно, я бы добавил, что в ряде случаев (нормальное распределение и определенный доверительный интервал) можно примерно определить размер выборки, чтобы она была репрезентативной. Зная, сколько стоит условно одна запись, можно сказать, будет ли достаточно выделенного бюджета для формирования нужной выборки.

А вот про это забыл сказать, вполне толковая идея связать вопрос со статистикой. Спасибо

11:06пожаловаться #3

Anton Rogozin

На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?

Взял бы за X стоимость некоторой единицы данных. Потом посчитал бы, сколько данных надо для обучения некоторой модели. Получил бы стоимость данных для решения конкретной задачи. Такую стоимость получил бы для всех подходов. Ранжировал эти подходы по ожидаемой эффективности (хотя бы по пятибальной шкале). Получил бы сопоставление эффективности модели и стоимости её обучения.

11:09пожаловаться #4

В идеале, конечно, надо еще как-то стоимость железа посчитать, которое необходимо для обучения

11:10пожаловаться #5

Вы прям как никогда деньги на покупку продуктов не считали -))

11:10пожаловаться #6

и про хранение тоже правильно писали )

11:12пожаловаться #7

Aroh

Как вы собираетесь считать кол-во данных, необходимых для обучения?

11:12пожаловаться #8

Я лично никак. Я еще этого делать не умею. Но если у вас нет понимания, сколько минимально надо данных для обучения модели, то на вопрос вы никак не ответите.

11:13пожаловаться #9

Ну так я и скажу, что вопрос задан абы как.

11:15пожаловаться #10

Просто считать деньги я уже в научился, благо бэкграунд это в себя включает. А ML еще нет. Чтобы ответить на заданный вопрос надо уметь хотя бы как-то оценивать объем необходимых данных.

11:15пожаловаться #11

Это стандартный вопрос со стороны бизнеса

11:15пожаловаться #12

они всегда их задают вот так

11:15пожаловаться #13

почти всегда

11:15пожаловаться #14

Ibp in Machine learning

мне кажется нужно сначала определиться с важностью данных, сделав контрольную закупку:) а потом уже оценивать, отфильтровав не нужные:)

11:15пожаловаться #15

Типичные бизнес макаки

11:16пожаловаться #16

ну, если объем оценить невозможно, то можно идти итерационным подходом. Попробовать что-то сделать на маленьком объеме. На нем же оценить сколько необходимо для масштабирования и поддержания потом модели.

11:17пожаловаться #17

не знаю, насколько это ложится на возможности ML

11:17пожаловаться #18

Там речь шла о картинках.
Во-первых, не озвучен ни тип задачи, который будет решаться, ни цель бизнеса не обозначена (чтоб мы могли под неё выбрать метрику), ни минимальный показатель качества, который бы устроил бизнес. Как без этого можно ответить на вопрос?

11:17пожаловаться #19

Юрий in Machine learning

K-S

Как вы собираетесь считать кол-во данных, необходимых для обучения?

Если модель простая, аля линейная регрессия, можно получить доверительные интервалы для её коэффициентов. Дальше можно оценить количество объектов в выборке, необходимой для сужения интервалов до требуемой ширины. Требуемую щирину уже оценивать для конкретного бизнеса и задачи. Не пойдет?