Смотри в теории машинного обучения есть такая важная тема как Resampling Methods. Это методы случайной выборки из данных которые у тебя есть. Есть два основных это Cross Validation и Bootstrap. Обычно во всяких обучающих материалах используется Cross Validation да и на практике он тоже очень популярен. Что он из себя представляет мы берем например делим случайным образом датасет на 5 частей. Сначала треним на 4 потом тестим на одном что остался, потом на других 4 и тестим на одном что остался и т.д. Так вот каждый такой набор (на котором мы тестим) называется
валидационным набором. Например наша метрика MSE мы получим 5 MSE по каждому
валидационному набору потом обычно берут среднее по ним.
Теперь про
тестовый сет. Есть правило алгоритм во время трениовки, никогда не должен видеть
тестовый набор. Есть два подхода первый мы имеем отдельно
тестовый набор на котором мы тестим после всех дел, когда все закончили включая тюнинг модели и тренировочный разбиваем как в примере выше и у нас по очереди получаются
валидацонные наборы. Есть и второй подход, когда обходятся без
тестового набора, потому что его нет, данных мало и тогда только поочередные
валидационные наборы используются.
Используют и то и то. Это инженерное решение и ты будешь видеть оба подхода. Ну и на каких то обучающих историях, ты можешь увидеть отсутствие кросс-валидации и только разбиение train_test_split.
В идеале все выглядит вот так. Единственное существует огромное количество разных кросс-валидаций.
Это пример где кросс-валидация используется для тюнинга гиперпараметров, но точно также она будет использоваться и для других целей, каждый синий Fold это и есть
валидационный набор.