На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?
Взял бы за X стоимость некоторой единицы данных. Потом посчитал бы, сколько данных надо для обучения некоторой модели. Получил бы стоимость данных для решения конкретной задачи. Такую стоимость получил бы для всех подходов. Ранжировал эти подходы по ожидаемой эффективности (хотя бы по пятибальной шкале). Получил бы сопоставление эффективности модели и стоимости её обучения.