温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

CPM定量方式是怎样的

发布时间:2021-12-18 15:03:42 来源:亿速云 阅读:372 作者:iii 栏目:大数据

这篇文章主要讲解了“CPM定量方式是怎样的”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“CPM定量方式是怎样的”吧!

在edgeR中,提供了一种名为CPM的定量方式,全称为count-per-millon。
假定原始的表达量矩阵为count, 计算CPM的代码如下

cpm <- apply(count ,2, function(x) { x/sum(x)*1000000 })

原始的表达量除以该样本表达量的总和,在乘以一百万就得到了CPM值 。从公式可以看出, CPM其实就是相对丰度,只不过考虑到测序的reads总量很多,所以总的reads数目以百万为单位。

在前面的文章中我们介绍了edgeR提供的TMM归一化算法,CPM这种求相对丰度的思想,虽然也是一种比较简单的归一化方式,但它并不用于差异分析之前的归一化。

在edgeR中,CPM主要有以下两种用途

1. 过滤表达量较低的基因

DESeq2和edgeR都是针对raw count表达量进行分析,在DESeq2中,在过滤低表达量的基因时,直接是根据reads数的总和进行判断,代码如下

countData <- count[apply(count, 1, sum) > 10 , ]

由于不同样本测序的reads总数不同,所以直接将所有样本的reads相加,然后进行过滤,这种方式略显粗糙。edgeR中,利用CPM的定量结果,对低表达量的基因进行过滤,代码如下

countData <- count[apply(cpm(count), 1, sum) > 2 , ]

利用相对丰度的加和进行过滤,消除了样本间reads总数不同的影响。需要注意的是,我们只是用CPM来过滤基因,而后续分析还是基于raw  count的结果,因为只有raw count是基于负二项分布的。

2. 差异分析的MA图

MA图是差异分析常用的可视化手段之一,横坐标为基因在两组样本中的均值 , 纵坐标为Fold  change, 就是两组表达量的倍数。edgeR中的plotMD函数可以绘制如下所示的MA图

CPM定量方式是怎样的

从x轴的标签可以看出来,采用的是CPM值。由于不同基因CPM值差异很大,所以采用log转换,缩小了不同基因之间的差异。

感谢各位的阅读,以上就是“CPM定量方式是怎样的”的内容了,经过本文的学习后,相信大家对CPM定量方式是怎样的这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI