3.2 训练误差和测试误差_快乐机器学习-QQ阅读男生都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.2 训练误差和测试误差

人在学习时，要做训练题，判断其是否学好时，要通过测试题进行检验；模型在学习时，要通过训练集进行训练，判断模型是否学好时，要通过测试集进行检验。测试题和训练题要分开，因为虽然训练题做得好，但是无法说明人是否真正学会了知识；同理，测试集要和训练集分开。介绍了这么多，就是为了强调“在机器学习中，一定要将数据划分为训练集和测试集，前者用来训练模型，后者用来评估模型”。训练就是在训练集上让模型的预测值与真实值的差异越来越小的操作，即减少训练误差；而评估就是在测试集上计算模型的预测值与真实值的差异的操作，即计算测试误差。下面用实例来解释训练误差和测试误差（真实误差的一种替代）。

3.2.1 训练误差

训练集（Training Set）是由训练数据组成的集合，本章引言中的7个[面积，房价]数据即为训练集（见下表），即对应下图中的7个蓝点。假设绿线是拟合出来的线性模型，蓝点和绿线的差距的平均值就是训练误差。

训练数据和训练误差

训练误差（Training Error）是模型在训练集上的误差，通常用均方值来表示：

下图中展示了用零阶、一阶、二阶和六阶多项式拟合后的训练误差，由此我们会发现，模型越复杂，训练误差越小（六阶多项式已经达到零训练误差了）。

不同多项式的训练误差

通过分析上图中的4个训练误差与其对应的模型复杂度（即多项式阶数），可以发现训练误差与模型复杂度成反比关系，如下图所示。

在下图中，六阶多项式完美地拟合了训练数据，训练误差为零。看着这个疯狂的“形状“，你会对它的预测能力有信心吗？其中紫点对应的房价会不会太疯狂？

注：横坐标轴为模型复杂度，纵坐标轴为训练误差

训练误差和模型复杂度成反比关系

问题：训练误差可以很好地度量模型的性能吗？是不是训练误差越小，模型的预测就越准？

回答：不是！除非训练数据包含了所有数据！反例可见下图。

过拟合紫点数据，3300平方英尺的房子估价8500万新元？

3.2.2 真实误差

真实误差（True Error）又被称作泛化误差（Generalization Error），是指训练完的模型在预测新数据时产生的误差。真实误差主要用于衡量模型的推广能力，即从训练数据中归纳规则，从而适应新数据的能力。

回到引言中的例子，我们的目的是能预测出所有房子的价格，不仅包括训练集内的房子，还包括训练集外的房子。虽然这些房子的面积和价格未知，但它们总会服从某个概率分布，如右图所示。

真实的房子价格对于给定面积是一个概率分布，而房子面积也是一个概率分布

首先，用一个直观的例子来计算真实误差。假设同为面积2500平方英尺的房子，价格有800万新元、1000万新元和1500万新元这3种。800万新元和1500万新元的房子分别有1栋和2栋，而中间价1000万新元的房子有7栋。这栋房子用模型拟合得出的价格是1050万新元，那么在房子面积为2500平方英尺时，模型的真实误差为

假设市场上只有两种不同面积的房子：10栋2500平方英尺的房子和5栋3000平方英尺的房子，那么最终模型的真实误差为

但实际上，在房屋市场中，面积为2500平方英尺和3000平方英尺的房子有无数栋，每种面积对应的房价也有无数种，而且未来会不断有新房子出现，因此，我们需要给出真实误差的严谨表达式。在给定房子面积x时列出以下表达式：

y=真实的房价（随机变量）

e_o _ut(h,x)=E_y[(y-h(x))²]

h（x）=模型预测的房价

E_y的下标y表示在真实房价维度上求积分

上式里的期望符号相当于上例中的累加符号。对于所有x，真实误差的表达式为

最后E_x，y的下标x、y表示在真实房价和面积两个维度上求积分。现在你可能认为对于真实误差，根本计算不出一个具体的数值。你的直觉是对的。

首先，我们用不同多项式模型拟合房价，粗略地看一看真实误差和模型复杂度（多项式阶数）的关系。

一阶多项式模型

对于未见过的房子，即使给定面积，它们的价格也是不确定的，但有一个概率分布，假设能画出价格的边界和均值，如右图所示。

● 两条红线分别表示真实房价的上、下边界。

● 蓝线表示真实房价的均值。

● 绿线表示拟合的一阶多项式模型。

● 绿线和蓝线的差异较大，因此一阶多项式模型对应的真实误差较大。

真实房价的均值和边界（一阶多项式模型）

二阶多项式模型

如右图所示，绿线表示拟合的二阶多项式模型。绿线和蓝线的差异较小，因此，该模型对应的真实误差较小。

真实房价的均值和边界（二阶多项式模型）

六阶多项式模型

如右图所示，绿线表示拟合的六阶多项式模型。绿线和蓝线的差异非常大，因此该模型对应的真实误差非常大。

真实房价的均值和边界（六阶多项式模型）

将通过上面3幅图发现的“真实误差随着模型复杂度的增加先变小再变大”的规律画成一张图，如下面左图所示；再把“训练误差随着模型复杂度的增加而单调变小”的规律画成一张图，如下面右图所示。

注：横坐标轴为模型复杂度，纵坐标轴为训练误差

真实误差随着模型复杂度的增加先变小再变大

训练误差随着模型复杂度的增加而单调变小

我们都希望找到真实误差最小的模型。但上面所有关于真实误差的图都是笔者臆想的（我们最多只能推断出其大概的形状，但得不到具体的数值），因为真实误差是基于所有数据的，没有人可以计算出基于未来数据的误差，因此，真实误差只可“意会”，不能计算，是一个理想却不实用的概念。“实用派”的测试误差终于上场了。

3.2.3 测试误差

测试集（Test Set）是由选出来用于测试的样本数据组成的集合。其最重要的特点是不包含任何训练集中的数据。当你选好训练集之后，测试集是“模拟”那些从来都没见过但未来可能会见到的数据集，如右图所示。

测试集

测试误差（Test Error）是指模型在测试集上的误差，其计算公式如下：

测试数据和测试误差

h中的参数是通过训练集（不是测试集）拟合出来的，用在测试集的m_test个样例上（x^（ⁱ^），y^（ⁱ^））。

如左图所示，绿色直线是通过训练集（7个蓝点）拟合出来的线性模型，而3个黄点是测试集。黄点和绿线的差距的平均值就是测试误差。

3.2.4 学习理论

斯蒂文刚刚为一个大客户开发了一个垃圾邮件分类系统，然后向客户汇报结果。

斯蒂文：我的模型对于100000个训练数据（邮件），能做到正确识别其中99%的垃圾邮件，训练误差为1%。

大客户：看起来可以，这个模型对新邮件的识别表现如何呢？

斯蒂文：我没看过新邮件的内容，怎么会知道模型的表现呢？

大客户：那你带着模型回家吧。

斯蒂文：

斯蒂文是不会这么轻易就放弃的，他想起了霍夫丁不等式可以将已知的样本内误差和未知的样本外误差连接起来（见2.2.2节）。首先，把训练误差e_train（g）类比为样本内误差e_in（g），把真实误差e_true（g）类比为样本外误差e_out（g），其中，斯蒂文训练出来的模型被定义为g。[注：3.2.4和3.3.3节的内容创作灵感来自参考资料[2]。]