温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何通过GDC Legacy Archive下载TCGA原始数据

发布时间:2021-07-24 10:19:16 来源:亿速云 阅读:370 作者:chen 栏目:大数据

本篇内容主要讲解“如何通过GDC Legacy Archive下载TCGA原始数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何通过GDC Legacy Archive下载TCGA原始数据”吧!

在2016年之前,TCGA项目的相关结果文件存放在CGhub和TCGA Data Coordinating Center简称DCC提供的TCGA Data Portal中,当时的结果是以hg19或者hg18为参考得到的。

在DCC中,将数据划分为了3个等级。level 1代笔原始的,未经处理的数据的,比如芯片下机数据;level2 代表处理的中间结果,比如测序深度对应的wig文件;level 3 代表处理完成后的最终结果,比如基因的定量结果。

2016年之后,CGhub和DCC相继关闭,所有的数据统一迁移到现在用的GDC数据库,而且通过GDC的pipeline将原有的结果转换为hg38参考基因组版本。目前在GDC中检索到的结果都是经过了GDC pipeline处理过后的,从这里也可以看出,迁移到hg38是一个大的趋势。

当然目前使用hg19的还是挺多的,如果你需要基于hg19版本的TCGA数据,在GDC中也可以找到。其实GDC中的数据可以分为以下两个部分

  1. GDC harmonized data

  2. GDC legacy archive


在R包TCGAbiolinks中,介绍了二者的区别,如下图所示

如何通过GDC Legacy Archive下载TCGA原始数据

第一部分就是默认使用的基于hg38版本的数据,第二部分则是对原始的TCGA结果的一个存储,通过GDC首页的GDC APPs, 可以找到CDC Legacy Archive的入口,链接如下

https://portal.gdc.cancer.gov/legacy-archive

如何通过GDC Legacy Archive下载TCGA原始数据

在左侧的面板可以根据相关属性对Cases和Files进行筛选,Cases相关的属性如下

如何通过GDC Legacy Archive下载TCGA原始数据

Files相关的属性如下

如何通过GDC Legacy Archive下载TCGA原始数据

数据的下载方式和前面文章中介绍的相同,这里不赘述,从文件名称可以看到对应的level, 不同level的文件示意如下

1. level1

通过Data TypeRaw intensitites进行筛选,得到芯片的原始数据, 示意如下

如何通过GDC Legacy Archive下载TCGA原始数据

2.  level2

通过Data TypeCoverage WIG进行筛选,得到比对的测序深度数据, 示意如下

如何通过GDC Legacy Archive下载TCGA原始数据

3. level3

通过Data TypemiRNA gene quantification进行筛选,得到miRNA表达定量数据, 示意如下

如何通过GDC Legacy Archive下载TCGA原始数据

通过GDC Legacy Archive, 可以找到基于hg19的数据结果文件,但是由于相关的网站已经关闭,无法确认该数据分析的pipieline等细节信息,所以需要谨慎使用。


到此,相信大家对“如何通过GDC Legacy Archive下载TCGA原始数据”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

gdc
AI