温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何分析GDC数据库中的数据的R语言包GDC RNATools

发布时间:2021-11-20 09:39:25 阅读:459 作者:柒染 栏目:大数据
亿速云云数据库,读写分离,安全稳定,弹性扩容,低至0.3元/天!! 点击查看>>

这期内容当中小编将会给大家带来有关如何分析GDC数据库中的数据的R语言包GDC RNATools,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

 

GDCRNATools:加利福尼亚大学生物与植物科学系植物基因组学中LNCRNA、miRNA和mRNA数据的综合分析软件包

GDC:基因组数据共享

 基本功能
  • 数据下载
  • ceRNA网络分析
  • 差异表达分析
  • 功能富集分析
  • 生存分析
  • 数据可视化 火山图、热图、GO富集分析结果、KEGG富集分析结果等
 接下来重复帮助文档中的例子

帮助文档链接 http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html

library(GDCRNATools)project<-'TCGA-CHOL'rnadir<-paste(project,'RNAseq',sep='/')mirdir<-paste(project,'miRNAs',sep="/")gdcRNADownload(project.id = 'TCGA-CHOL',               data.type = 'RNAseq',               write.manifest = F,               method = 'gdc-client',               directory = rnadir)
 

在linux系统中重复到这一步的时候遇到报错 ImportError: /lib64/libc.so.6: version `GLIBC_2.18' not found (required by /tmp/_MEIylVP0W/libstdc++

我的解决办法是把它默认下载的gdc-client_v1.3.0替换掉,我换成gdc-client_v1.5.0,下载地址是https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

gdcRNADownload(project.id = 'TCGA-CHOL',               data.type = 'miRNAs',               write.manifest = F,               method = 'gdc-client',               directory = mirdir)clinicaldir<-paste(project,'Clinical',sep='/')gdcClinicalDownload(project.id = 'TCGA-CHOL',                    write.manifest = F,                    method='gdc-client',                    directory = clinicaldir)metaMatrix.RNA<-gdcParseMetadata(project.id = 'TCGA-CHOL',                                 data.type = 'RNAseq',                                 write.meta = F)metaMatrix.RNA<-gdcFilterDuplicate(metaMatrix.RNA)metaMatrix.RNA<-gdcFilterSampleType(metaMatrix.RNA)metaMatrix.MIR<-gdcParseMetadata(project.id = 'TCGA-CHOL',                                 data.type = 'miRNAs',                                 write.meta = F)metaMatrix.MIRmetaMatrix.MIR<-gdcFilterDuplicate(metaMatrix.MIR)metaMatrix.MIR<-gdcFilterSampleType(metaMatrix.MIR)
   

获取表达矩阵

rnaCounts<-gdcRNAMerge(metadata = metaMatrix.RNA,                       path = rnadir,                       organized = FALSE,                       data.type = 'RNAseq')mirCounts<-gdcRNAMerge(metadata = metaMatrix.MIR,                       path = mirdir,                       organized = FALSE,rnaCounts[1:5,1:5]mirCounts[1:5,1:5]
   

标准化表达数据

rnaExpr<-gdcVoomNormalization(counts=rnaCounts,filter=F)mirExpr<-gdcVoomNormalization(counts=mirCounts,filter=F)rnaExpr[1:5,1:5]mirExpr[1:5,1:5]
   

差异表达分析

DEGAll<-gdcDEAnalysis(counts = rnaCounts,                      group=metaMatrix.RNA$sample_type,                      comparison = 'PrimaryTumor-SolidTissueNormal',                      method='limma')deALL<-gdcDEReport(deg=DEGAll,gene.type = 'all')deLNC<-gdcDEReport(deg=DEGAll,gene.type='long_non_coding')dePC<-gdcDEReport(deg=DEGAll,gene.type = 'protein_coding')
   

记下来是数据可视化展示

 柱形图展示差异表达的基因类型
gdcBarPlot(deg=deALL,angle = 45,data.type = 'RNAseq')
 
如何分析GDC数据库中的数据的R语言包GDC RNATools  
image.png

这里TEC和IG分别是啥?

 长链非编码RNA的差异表达火山图
gdcVolcanoPlot(deLNC)
 
如何分析GDC数据库中的数据的R语言包GDC RNATools  
 热图
degName<-rownames(deLNC)gdcHeatmap(deg.id = degName,metadata = metaMatrix.RNA,rna.expr = rnaExpr)
 
如何分析GDC数据库中的数据的R语言包GDC RNATools  
image.png
 富集分析
enrichOutput<-gdcEnrichAnalysis(gene=rownames(deALL),                                simplify=T)gdcEnrichPlot(enrichOutput,type='bar',category = 'GO',num.terms = 10)
 

画图的时候遇到报错 Error in .Call.graphics(C_palette2, .Call(C_palette2, NULL)) : invalid graphics state 不知道原因出在哪里,但是保存到本地没问题

pdf(file="../goenrich.pdf",width = 15,height = 15)gdcEnrichPlot(enrichOutput,type='bar',category = 'GO',num.terms = 10)dev.off()
 
如何分析GDC数据库中的数据的R语言包GDC RNATools  
image.png
 ceRNA网络
ceOUtput<-gdcCEAnalysis(lnc=rownames(deLNC),                        pc=rownames(dePC),                        lnc.targets = 'starBase',                        pc.targets = 'starBase',                        rna.expr = rnaExpr,                        mir.expr = mirExpr)edges<-gdcExportNetwork(ceNetwork = ceOutput2,net='edges')nodes<-gdcExportNetwork(ceNetwork = ceOutput2,net='nodes')write.table(edges,file='edges.txt',sep='\t',quote=F)write.table(nodes,file="nodes.txt",sep="\t",quote=F)

最后生成了两个文件,如何用cytoscape可视化这两个文件我暂时还不知道如何实现。

上述就是小编为大家分享的如何分析GDC数据库中的数据的R语言包GDC RNATools了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。

亿速云「云数据库 MySQL」免部署即开即用,比自行安装部署数据库高出1倍以上的性能,双节点冗余防止单节点故障,数据自动定期备份随时恢复。点击查看>>

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

原文链接:https://my.oschina.net/u/4579431/blog/4347644

AI

开发者交流群×