1.3 有向量的地方,就有几何
数据云、投影
取出鸢尾花前两个特征,即花萼长度和花萼宽度所对应的数据,把它们以坐标的形式画在平面直角坐标系(记做)中,我们便得到平面散点图。如图1.6所示。这幅散点图好比样本“数据云”。
图1.6 鸢尾花前两个特征数据散点图
图1.6中数据点(5.0, 2.0)可以写成行向量[5.0, 2.0]。(5.0, 2.0)是序号为61的样本点,对应的行向量可以写成x(61)。
从几何视角来看,[5.0, 2.0]在横轴的正交投影(orthogonal projection)结果为5.0,代表该点的横坐标为5.0。[5.0, 2.0]在纵轴的正交投影结果为2.0,代表其纵坐标为2.0。
正交(orthogonality)是线性代数的概念,是垂直的推广。正交投影很好理解,即原数据点和投影点连线垂直于投影点所在直线或平面。打个比方,头顶正上方阳光将物体的影子投影在地面,而阳光光线垂直于地面。如无特别强调,本书的投影均指正交投影。
从集合视角来看,(5.0, 2.0)属于平面,即(5.0, 2.0)∈。图1.6中整团数据云都属于。再者,如图1.6所示,从向量角度来看,行向量[5.0, 2.0]在横轴上投影的向量为[5.0, 0],在纵轴上投影的向量为[0, 2.0]。而[5.0, 0]和[0, 2.0]两个向量合成就是[5.0, 2.0]=[5.0, 0]+[0, 2.0]。
再进一步,将图1.6整团数据云全部正交投影到横轴,得到图1.7。图1.7中×代表的数据实际上就是鸢尾花数据集第一列的花萼长度数据。图1.7中的横轴相当于一个一维空间,即数轴。
我们也可以把整团数据云全部投影在纵轴,得到图1.8。图中的×是鸢尾花数据第二列的花萼宽度数据。
图1.7 二维散点正交投影到横轴
图1.8 二维散点正交投影到纵轴
投影到一条过原点的斜线
你可能会问,是否可以将图1.7中所有点投影在一条斜线上?
答案是肯定的。
如图1.9所示,鸢尾花数据投影到一条斜线上,这条斜线通过原点,与横轴夹角为15°。观察图1.9,我们已经发现投影点似乎是x1与x2的某种组合。也就是说,x1和x2分别贡献v1x1和v2x2,两种成分的合成v1x1+v2x2就是投影点坐标。v1x1+v2x2也叫线性组合(linear combination)。
图1.9 二维散点正交投影到一条斜线
大家可能会问,怎么计算图1.9中的投影点坐标呢?这种几何变换有何用途?这是本书第9、10章要探究的问题。
三维散点图、成对特征散点图
取出鸢尾花前三个特征(花萼长度、花萼宽度、花瓣长度)对应的数据,并在三维空间绘制散点图,得到图1.10所示的散点图。而图1.6相当于图1.10在水平面(浅蓝色背景)的正交投影结果。
图1.10 鸢尾花前三个特征数据散点图
回顾鸢尾花书《数学要素》一册介绍过的成对特征散点图,具体如图1.11所示。成对特征散点图不仅可视化鸢尾花的四个特征(花萼长度、花萼宽度、花瓣长度和花瓣宽度),而且通过散点颜色还可以展示鸢尾花的三个类别(山鸢尾、变色鸢尾、弗吉尼亚鸢尾)。图1.11中的每一幅散点图相当于四维空间数据在不同平面上的投影结果。
图1.11 鸢尾花数据成对特征散点图(考虑分类标签,图片来自鸢尾花书《数学要素》一册)
统计视角:移动向量起点
如图1.12所示,本节前文行向量的起点都是原点,即零向量0。而平面这个二维空间则“装下”了这150个行向量。
图1.12 向量起点为原点
但是,统计视角下,向量的起点移动到了数据质心(centroid)。所谓数据质心就是数据每一特征均值构成的向量。
这一点也不难理解,大家回想一下,我们在计算方差、均方差、协方差、相关性系数等统计度量时,都会去均值。从向量角度来看,这相当于移动了向量起点。
如图1.13所示,将向量的起点移动到质心后,向量的长度、绝对角度(如与坐标系横轴夹角)、相对角度(向量两两之间的夹角)都发生了显著变化。
图1.13 向量起点为质心
将图1.13整团数据云质心平移到原点,这个过程就是去均值过程,结果如图1.14所示。数据矩阵X去均值化得到的数据矩阵记做Xc,显然Xc的质心位于原点(0,0)。去均值并不影响数据的单位,图1.14横轴、纵轴的单位都是厘米。
图1.14 数据去均值化
观察图1.11,我们发现,如果考虑数据标签的话,每一类标签样本数据都有自己质心,叫做分类质心,这是本书第22章要讨论的话题。此外,本书最后三章的“数据三部曲”会把数据、矩阵、向量、矩阵分解、空间、优化、统计等板块联结起来。