本篇文章为大家展示了WGCNA如何从module中挖掘关键基因,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
识别到与表型数据相关的modules之后,还可以在该modules中进一步筛选基因,为了方便筛选,对于每个基因定义了以下三个统计量
连接度,在之前的文章中,简单提过这个概念,类似于网络中节点的degree
的概念,只不过在加权共表达网络中,由于每条边代表两个基因间的相关性的大小,对应一个数值,所以一个基因在共表达网络中的连接度定义为与该基因相连的所有边的数值之和。
另外,根据相连的基因是否和该基因位于同一个module, 又可以将边分为两类,和该基因位于同一个module内,定义为within, 位于不同的modules, 定义为out。在WGCNA中,可以通过intramodularConnectivity
函数计算连接度,用法如下
# 计算基因间的邻接值 ADJ1=abs(cor(datExpr,use="p"))^6 #计算连接度 Alldegrees1=intramodularConnectivity(ADJ1, colorh2)
计算的结果如下
> head(Alldegrees1) kTotal kWithin kOut kDiff Gene1 31.80186 28.37595 3.425906 24.95005 Gene2 28.88249 26.47896 2.403522 24.07544 Gene3 25.38600 23.11852 2.267486 20.85103
KTotal
代表该基因的所有边的连接度,KWithin
代表和该基因位于同一个module下的边的连接度,KOut
代表和该基因位于不同module下的边的连接度,所以KTotal
是KWithin
和KOut
之和,KDiff
代表KWithin
和KOut
的差值。
在module中,会存在hub gene的概念,所谓的hub gene, 就是该module下连接度最大的基因,注意此时只考虑位于该module下的边,就是上文的KWithin
。
简称MM, 将该基因的表达量与module的第一主成分,即module eigengene进行相关性分析就可以得到MM值,所以MM值本质上是一个相关系数,如果基因和某个module的MM值为0,说明二者根本不相关,该基因不属于这个module; 如果MM的绝对值接近1,说明基因与该module相关性很高。
在WGCNA中,计算基因与module之间的MM值的代码如下
datKME = signedKME( datExpr, datME, outputColumnName="MM.")
第一个参数为基因表达量,第二个参数为Module Eigengene值,结果如下
> head(datKME) MM.blue MM.brown MM.green MM.grey MM.turquoise MM.yellow Gene1 0.6830511 0.11547756 -0.007124794 0.2840109 0.9481457 0.09588170 Gene2 0.6342657 0.02257975 0.080277091 0.3029967 0.9356343 0.06889483 Gene3 -0.6198067 -0.12531203 0.008372054 -0.2776929 -0.9121710 -0.17852211 Gene4 0.5966736 0.06469079 0.049862112 0.2671967 0.9052030 0.11707603 Gene5 0.6642214 0.14369720 -0.017975774 0.2442237 0.9017972 -0.01038067 Gene6 -0.6018161 -0.15167072 0.006667131 -0.2053897 -0.9192597 -0.17138960
简称GS, 将该基因的表达量与对应的表型数值进行相关性分析,最终的相关系数的值就是GS, GS反映出基因表达量与表型数据的相关性,计算GS的代码如下
GS1=as.numeric(cor(y,datExpr, use="p"))
通过以上三个量化指标,可以方便对module下的基因进行筛选。通常情况下,通过module和表型数据的相关性分析,我们可以筛选得到和感兴趣的某一表型相关的具体的modules,在该module下面深入挖掘基因时,可以通过MM
和GS
两个指标作为过滤手段,示例如下
FilterGenes= abs(GS1)> .2 & abs(datKME$MM.brown)>.8
假设brown是我们找到的和表型高度相关的module, 其中的关键基因可以定义为和brown
这一表型的GS值大于0.2,而且MM值大于0.8的基因。筛选出关键基因后,可以通过功能富集分析进一步挖掘其功能。
上述内容就是WGCNA如何从module中挖掘关键基因,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。