mjqtc 发表于 2012-3-8 01:53 
谢谢,您的这个解释正式我想了解的。
但是我还是有一些不太明白的东西。
比如您说的这些“云点”是椭圆 ...
这个数据协方差矩阵的最大的特征值所对应的特征向量是数据点云分布离散程度(方差)最大的方向,反过来说这里的最大特征值就是点云分布中离散程度最大的那个方向的方差,同样特征值小的特征向量就是数据点分布中方差小的那个方向,且满足和其他特征向量正交(这由实对称矩阵的不同特征值对应的特征向量正交得到)。若数据点的分布几乎在一直线上,那就是说数据点的分布的在这直线的离散程度(方差)是最大的,故此直线所在的方向即为最大特征值(方差)所对应的特征向量所在的方向,而显然与此直线垂直的方向上,数据点的分布方差几乎为零,故此方向为大小几乎为零的特征值所对应的特征向量,在此方向上所包含的数据点分布的信息量也几乎为0,换句话说数据点分布的特征信息量几乎都由此分布直线上的方差(最大特征值)所承载。故在刻画平面上几乎分布在一直线上的数据点的分布特征时,可以近似地认为数据点在直线上分布,而忽略掉与此直线垂直方向上的分布特征(几乎为零的方差(特征值)),即保留数据分布的主要特征(信息)(保留特征值大的特征向量),而忽略少量的次要的特征(信息)(去掉特征值小的特征向量).此时虽然少量信息丢失,但此时每个数据点由原来的二维向量变为一维的向量(数),对应平面上的点转变为直线上的点。每个数据点的维数得到了有效的下降,为研究数据分布特征带来了方便。这是二维数据降为一维数据的例子,在实际问题中,经常遇到的是几万甚至是上千万维度的数据点,要是能通过同样的方法将其维度降到几十维,就能在损失较少信息量的条件下简化我们的研究对象(数据点),提高效率。这就是著名的主成分分析的算法思想,也就是常用来进行降维PCA算法。