这篇文章给大家介绍如何理解PCA算法过程,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
前言
PCA,即主成分分析,是一种数据降维的方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低数据维数,从而实现提升数据处理速度的目的。
流程
1.数据标准化处理。
先按列计算数据集X的均值Xmean,然后Xnew=X−XmeanXnew=X−Xmean进行归一化处理。
2.求解矩阵Xnew的协方差矩阵。
3. 计算协方差矩阵的特征值和相应的特征向量。
4.将特征值按照从大到小的排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
5.计算降维后的数据集,即将归一化的数据集投影到选取的特征向量矩阵上,这样就得到了我们需要的已经降维的数据集。
个人理解
PCA算法的核心降维其实就是把高维的数据选取一组组基底(即协方差矩阵计算出特征向量)进行分解,这个基底要让高维分解的数据尽量包含更多的信息(方差:数据更分散;协方差:线性无关),毕竟高维数据变成低维数据肯定要损失一些信息,我们要让它的损失降到最小。我们选取包含更多信息的基底可得到对样本起决定性作用最大的前K个特征(特征矩阵)。最后我们只需要把测试的样本进行降维操作(投影)后和一个个降维后人脸样本(投影)进行做差,若差值小于某个我们设定的数值(阈值),我们则可以认为是同一个人脸。
优缺点
1.优点
1)它是无监督学习,无参数限制的。
2)PCA对数据降维的同时也对新求出的特征值进行排序,根据所设置的阈值进行根据重要性程度的排列,可以达到在降维的同时最大程度保留原有信息。
3)各个主成分之间正交,无原始数据之间的互相影响。
2.缺点
1)贡献率小的成分有时含有样本的重要信息。
2)如果我们对所识别对象有一定认识,掌握了一些特征,无法通过参数的设置来干预。
3)非高斯分布的情况下,PCA方法得出的主元可能不是最优的。
关于如何理解PCA算法过程就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。