#C6W3 Анализ тональности текста
Это вопрос больше про типовую задачу классического ML с kaggle. Допустим, нам дали обучающую выборку с классами и тестовую без классов. Чтобы избежать переобучения, мы используем кросс валидацию на обучающей выборке. Согласно некоторой метрике (в рамках этой задачи accuracy) получаем самую лучшую модель, выбранную с помощью grid search и/или личных соображений/предпочтений. Чем больше качество на обучающей под вышеуказанному алгоритму, тем лучше оценка на тестовой выборке - по крайней мере после нескольких моих самбитов зависимость виднеется. Правильно ли я рассуждаю?
по идее так и должно быть, потому что при кросс валидации, те данные на которых тестируется алгоритм не входят в обучение, но на практике, если например на ваши конечные признаки в тестовой выборке что то влияет, что не было учтено при составлении обучаемой выборки. могут быть расхождения