PCA

即主成分分析,又称主分量分析技术,旨在利用降维的思想,把多指标转化为少数几个综合指标

定义

统计学中,主成分分析PCA是一种简化数据集的技术。是一个线性变换。这个变化把数据变换道一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对放差贡献最大的特征。这是通过保留最低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,也不一定,要视具体而看

交换的步骤

  1. 计算矩阵X的样本的协方差矩阵 S(此为不标准PCA,标准PCA计算相关系数 矩阵C)
  2. 计算协方差矩阵S(或C)的特征向量 e1,e2,...eN和特征值,t=1,2,..N;
  3. 投影数据道特征向量张成的空间之中。利用公式newBVikp=∑k=1neiBVipknewBV_{i_{k}p} = \sum\limits_{k=1}^n{e_{i}BV_{i_{p}k}}newBV​i​k​​p​​=​k=1​∑​n​​e​i​​BV​i​p​​k​​ ,其中BV值是原样本中对应维度的值
PCA的目标是寻找r(r[InvalidCharacterError: "N)个新变量,是它们反映事物的主要特征,压缩原有数据矩阵的规模,将特征向量的位数降低,挑选出最少的维数来概括最重要特征。每个新编狼是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。这R个新变量称为“主成分”,它们可以在很大成都上反映原来N个变量的影响,并且这些新变量是互不相关的,也是正交的,通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来<" did not match the Name production]