На собеседовании задали вопрос: "Данные стоят денег. Как ты будешь оценивать количество данных, которые можно обработать за такое количество денег?" Ответил, что зависит от модели, данных и задачи. К примеру, нейронкам надо много данных для обработки изображений, а для бинарной классификации векторов хватит небольшого количества данных и SVM. Если данные плохие (много null и пропусков), то качество не добьёшься.
Как бы вы на это ответили на этот вопрос?
Также возникает вопрос о том, как эти изображения были собраны, есть ли разрешение на их использование. Мне кажется, что в ряде случаев можно значительно снизить стоимость исходных данных, если предоставить бесплатный сервис, который выдает какой-то побочный продукт обработки этих данных на условиях предоставления разрешения на их использование. Типа сделать сервис, который накладывает фильтр на фото, которое присылает пользователь, и в условиях пользования прописать, что эти изображения могут быть использованы для разработки внутренних продуктов.
Тогда можно посчитать, сколько будет стоить разработка и продвижение такого приложения, и если это будет дешевле, чем закупать эти данные, то лучше поднять такой сервис,