温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

​Numpy中怎么实现PCA

发布时间:2021-12-16 10:38:11 来源:亿速云 阅读:149 作者:iii 栏目:云计算

本篇内容主要讲解“Numpy中怎么实现PCA”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Numpy中怎么实现PCA”吧!

Numpy中实现PCA

from numpy import *

'''
10.235186	11.321997
10.122339	11.810993
9.190236	8.904943
9.306371	9.847394
8.330131	8.340352
10.152785	10.123532
10.408540	10.821986
...
...
'''
def loadDataSet(fileName, delim='\t'):
    fr = open(fileName)
    stringArr = [line.strip().split(delim) for line in fr.readlines()]
    datArr = [map(float,line) for line in stringArr]
    return mat(datArr)

def pca(dataMat, topNfeat=9999999):
    meanVals = mean(dataMat, axis=0)                    #计算列均值
    print meanVals                                      # [[ 9.06393644  9.09600218]]
    print '======'
    meanRemoved = dataMat - meanVals #remove mean       # 每一列都减去均值
    covMat = cov(meanRemoved, rowvar=0)                 # 计算新矩阵(减去均值)协方差
    print covMat                                        # [
                                                            [ 1.05198368  1.1246314 ]
                                                            [ 1.1246314   2.21166499]
                                                          ]
                                                          
                                                        #协方差
    print '======'
    eigVals,eigVects = linalg.eig(mat(covMat))          #计算协方差矩阵的特征值和特征向量
    print eigVals                                       # [ 0.36651371  2.89713496]
    print '======'
    print eigVects                                      #  [
                                                            [-0.85389096 -0.52045195]
                                                            [ 0.52045195 -0.85389096]
                                                           ]  
    print '======'
    eigValInd = argsort(eigVals)                        #按照特征值从大到小排序。选择topN
    eigValInd = eigValInd[:-(topNfeat+1):-1]  
    redEigVects = eigVects[:,eigValInd]               
    print redEigVects
    print '======'                                      #[
                                                            [-0.52045195]
                                                            [-0.85389096]
                                                         ]
    lowDDataMat = meanRemoved * redEigVects             # N x 2  * 2 x 1 ==> N x 1 
                                                          即把N x 2的矩阵转化成N x 1 的矩阵,维度降到1  
    reconMat = (lowDDataMat * redEigVects.T) + meanVals
    return lowDDataMat, reconMat

均值: mean(X) = (x0 + x1 + ... + xn) / n

标准差:std = Math.sqrt([x0 - mean(x)]^2/(n-1),2)

方差:var=[x0 - mean(x)]^2/(n-1)

比如两个集合[0,8,12,20]、[8,9,11,12] 均值都是10.但是两个集合的差别很大。计算两个标准差,前者是8.3和后者是1.8.

显示后者比较集中。标准差描述了数据的“散布度”。之所以除以n-1而不是n。是因为能使我们以较小的样本更好的逼近总体的标准差。即“无偏估计”

为什么需要协方差?

标准差和方差一般是用来描述一维的数据。但是现实生活中,我们常常遇到含有二维数据的数据集。最简单的是大家上学免不了的统计多个学科的考试成绩。多维数据之间的关系。协方差就是这样一种度量两个随机变量关系的统计量

var(X) = {Math.pow(xi-mean(X),2)}/(n-1) = {xi-mean(X)}{xi-mean(X)}/(n-1)

仿照方差的定义:

cov(X,Y)= {xi-mean(X)}{yi-mean(Y)}/(n-1)

来度量各个维度偏离其均值的程度。

协方差结果的意义:

如果是正值,则说明两者是正相关,如果结果是负值,则说明两者是负相关。如果是0,表示两者没有关联,相互独立。

多维协方差:矩阵来表示

    cov(x,x) cov(x,y) cov(x,z)

C=cov(y,x) cov(y,y) cov(y,z)      ===> 可见协方差矩阵是一个对称矩阵,而且对角线是各个维度的方差。 是3*3

    cov(z,x) cov(z,y) cov(z,z)

到此,相信大家对“Numpy中怎么实现PCA”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

pca
AI