训练集(Training Set) 和 测试集(Test Set) 被广泛应用在人工智能、机器学习、遗传编程、智能系统、统计学等领域中。 训练集用来构建或者发现潜在的预测关系。 通过训练集来构建的数据关系,都存在某种程度的过适(过拟合,over-fit)问题。也就是说,训练集训练出来的模型只能体现训练集中数据之间显然的关系,却未必能代表所有的数据。 而测试集则是独立于训练集的一组数据,但它服从和训练集同样的概率分布。 如果一个模型既能能很好的拟合训练集也能很好的拟合测试集,则过拟合现象就不明显。 如果模型只能拟合训练集而不能很好的拟合测试集,则过拟合现象就发生了。 简言之,训练集用来训练一个模型,测试集用来测试该模型是否恰当。 如图所示,左图的蓝点表示训练集中的数据,而绿色和橘色的曲线则是对测试集的拟合。 [caption id=”” align=”aligncenter” width=”1400”] Trainig set and test set[/caption]
右图的蓝点表示测试集中的数据。训练集中橘色曲线拟合的MSE为4,绿色曲线为9。
同样的曲线,在测试集当中,橘色曲线的MSE为15,绿色曲线为13。