本篇内容主要讲解“如何使用homer进行peak注释”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用homer进行peak注释”吧!
homer软件集成了许多的功能,包括peak calling, peak注释,motif分析等等,通过这一个软件,就可以完成chip_seq的绝大部分分析内容,不可谓不强大。本文主要介绍这个软件进行peak注释的用法。
在homer中通过annotatePeaks.pl
这个脚本进行peak的注释,分为以下两步
homer内置了许多物种的注释信息供我们下载,通过以下命令可以查看所有内置的物种
perl configureHomer.pl --list
其中GENOMES
部分对应的就是内置支持的物种,部分内容展示如下
GENOMESv5.10 hg19 v6.0 human genome and annotation for UCSC hg19+ mm10 v6.0 mouse genome and annotation for UCSC mm10- sacCer3 v6.0 yeast genome and annotation for UCSC sacCer3- panTro5 v6.0 human genome and annotation for UCSC panTro5
以hg19
为例,下载方式如下
perl configureHomer.pl -install hg19
下载的信息保存在homer安装目录的data
目录下,以hg19
为例,在data/genome/hg19
目录下,文件列表如下
├── chr1.fa├── chr2.fa├── chr3.fa├── ...fa├── chrom.sizes├── conservation├── hg19.annotation├── hg19.aug├── hg19.basic.annotation├── hg19.full.annotation├── hg19.miRNA├── hg19.repeats├── hg19.rna├── hg19.splice3p├── hg19.splice5p├── hg19.stop├── hg19.tss├── hg19.tts└── preparsed
包含了参考基因组的fasta序列以及不同区域的区间文件。
hg19.basic.annotation内容如下
Intergenic chr1 1 10873 + N 1900000000promoter-TSS (NR_046018) chr1 10874 11974 + P 1non-coding (NR_046018, exon 1 of 3) chr1 11975 12227 + pseudo 125025intron (NR_046018, intron 1 of 2) chr1 12228 12612 + I 810684non-coding (NR_046018, exon 2 of 3) chr1 12613 12721 + pseudo 125026intron (NR_046018, intron 2 of 2) chr1 12722 13220 + I 810684non-coding (NR_046018, exon 3 of 3) chr1 13221 13361 + pseudo 125027
同时在data/accession
目录下,还有参考基因组对应的基因注释文件。
human2gene.tsv记录了基因的ubigene id, gene symbol等信息,内容如下所示
ADE73044 3107 Hs.656020 NM_002117 ENSG00000204525 HLA-CENSG00000113163 10087 Hs.270437 NM_005713 ENSG00000113163 COL4A3BPDB065460 9947 Hs.132194 NM_005462 ENSG00000155495 MAGEC1ENSP00000282466 285313 Hs.58561 NM_178822 ENSG00000152580 IGSF10DB029361 22849 Hs.131683 NM_014912 ENSG00000107864 CPEB3XP_016877211 87 Hs.235750 NM_001102 ENSG00000072110 ACTN1EAW77897 56965 Hs.270244 NM_020213 ENSG00000137817 PARP6
human.description记录表了基因的功能描述,类别等信息,示意如下
用法如下
annotatePeaks.pl peak.bed hg19 > peak.annotation.xls
第一个参数为peak的bed文件,第二个参数为参考基因组的名称。输出结果如下所示
注释的内容包含两个部分,第一部分是距离peak区间最近的转录起始位点TSS,第二部分是对peak在基因组区域的分布,比如TSS,TTS,3’UTR,5’UTR等区域。
到此,相信大家对“如何使用homer进行peak注释”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4580290/blog/4571217