温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何理解PCA算法过程

发布时间:2021-11-17 10:59:30 来源:亿速云 阅读:176 作者:柒染 栏目:大数据

这篇文章给大家介绍如何理解PCA算法过程,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

前言

PCA,即主成分分析,是一种数据降维的方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低数据维数,从而实现提升数据处理速度的目的。

流程

1.数据标准化处理。

先按列计算数据集X的均值Xmean,然后Xnew=X−XmeanXnew=X−Xmean进行归一化处理。 

2.求解矩阵Xnew的协方差矩阵。

如何理解PCA算法过程

3. 计算协方差矩阵的特征值和相应的特征向量。 

4.将特征值按照从大到小的排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
 5.计算降维后的数据集,即将归一化的数据集投影到选取的特征向量矩阵上,这样就得到了我们需要的已经降维的数据集。

个人理解

PCA算法的核心降维其实就是把高维的数据选取一组组基底(即协方差矩阵计算出特征向量)进行分解,这个基底要让高维分解的数据尽量包含更多的信息(方差:数据更分散;协方差:线性无关),毕竟高维数据变成低维数据肯定要损失一些信息,我们要让它的损失降到最小。我们选取包含更多信息的基底可得到对样本起决定性作用最大的前K个特征(特征矩阵)。最后我们只需要把测试的样本进行降维操作(投影)后和一个个降维后人脸样本(投影)进行做差,若差值小于某个我们设定的数值(阈值),我们则可以认为是同一个人脸。

优缺点

1.优点

  1)它是无监督学习,无参数限制的。

 2)PCA对数据降维的同时也对新求出的特征值进行排序,根据所设置的阈值进行根据重要性程度的排列,可以达到在降维的同时最大程度保留原有信息。

 3)各个主成分之间正交,无原始数据之间的互相影响。

2.缺点

 1)贡献率小的成分有时含有样本的重要信息。

 2)如果我们对所识别对象有一定认识,掌握了一些特征,无法通过参数的设置来干预。

 3)非高斯分布的情况下,PCA方法得出的主元可能不是最优的。

关于如何理解PCA算法过程就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

pca
AI