怎样从UCSC下载基因组的GTF文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。
Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下
http://genome.ucsc.edu/cgi-bin/hgTables
第一行的3个标签用于确定确定物种和版本。clade
提供了物种分类,包括以下类型
Mammal 哺乳动物
Vertebrate 脊椎动物
Deuterostome 后口动物
Insect 昆虫
Nematode 线虫
Viruses 病毒
other 其他
从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade
的类别,可以快速查找物种。genome
选择对应的物种名字,assembly
选择基因组版本。
group
用于选择文件保存信息的类型,提供了以下类型
Mapping and Sequencing
Genes and Gene Predictions
Phenotype and Literature
mRNA and EST
Expression
Regulation
Comparative Genomics
Variation
Repeats
All Tracks
All Tables
GTF文件保存的是基因和转录本的结构信息,所以选择2,track
选择对应的数据库和版本,通常选择NCBI RefSeq
。
table
选择数据,对于NCBI RefSeq, 提供了如下选择
RefSeq All
RefSeq Curated
RefSeq Predicted
UCSC RefSeq
RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM
, NR
, YP
开头,RefSeq Predicted代表预测的数据,以XM
, XR
开头;UCSC RefSeq 代表所有以NM
, NR
开头的转录本信息。通常选择UCSC RefSeq
即可。
region
选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。output format
选择输出文件格式,常用的有以下两种
GTF(limited)
BED
output file
指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned
选择返回文件的格式,支持返回压缩文件。
通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下
chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";
转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。
UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred
这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9
UCSC RefSeq这种信息对应的文件为refGene.txt.gz
, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。
其中genePredToGtf
就是把genepred格式转换为gtf格式的工具。使用方式如下
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz gunzip refGene.txt.gz cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref hg38.gtf
refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred
格式了。最终生成的文件如下
chr20 hg19_Ref exon 63865228 63865384 . + . gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";
可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。
关于怎样从UCSC下载基因组的GTF文件问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。