一般而言,这一方法的目的是寻找任意统计分布的数据集合之主要分量的子集。相应的基向量组满足正交性且由它定义的子空间最优地考虑了数据的相关性。将原始数据集合变换到主分量空间使单一数据样本的互相关性(cross-correlation)降低到最低点。 设
是N维向量的数据集合,m是其均值向量:
有了特征向量集合,任何数据x可以投影到特征空间(以特征向量为基向量)中的表示:
相反地,任何数据x可以表示成如下的线性组合形式:
如果用A代表以特征向量为列向量构成的矩阵,则AT定义了一个线性变换:
上述去相关的主分量分析方法可以用于降低数据的维数。通过略去对应于若干较小特征值的特征向量来给y降维。例如,丢弃底下N-M行得到并为简单起见假定均值m=0,则有:
的矩阵B,
它只是被舍弃的特征向量所对应的特征值的和。通常,特征值幅度差别很大,忽略一些较小的值不会引起很大的误差。
上述方法是图象数据压缩的数学基础之一,通常被称为Principal Component Analysis (PCA)或Karhunen-Loeve (K-L)变换。
K-L变换的核心过程是计算特征值和特征向量,有很多不同的数值计算方法。
一种常采用的方法是根据如下的推导:
由于通常s< 因篇幅问题不能全部显示,请点此查看更多更全内容