разговор начался с того, что вы запросили 50%+ "чистых" данных
я написал что это очень странное понятие
надеюсь, пояснил, почему с моей тз это так
я, честно говоря, не понял почему
неучтённые факторы это интересно, но если пространство признаков более или менее обосновано, то если из 1000 семплов только 501 валиден, а остальные нет, то при переборе/поиске свободных параметров будет найдено, плохо работающее решение (модель), которая будучи примененной ко входным данным может работать фильтром и отсеивать инвалидные семплы...
естественно, после такого финта, нужно анализом бракованных семплов искать причину выбраковки, и проводить новую серию экспериментов с учётом выбраковывающего фактора