怎么使用ASProfile分析可变剪切事件,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
ASprofile是一款识别可变剪切事件的软件,该软件可以直接将同一个基因的多个转录本进行比较,从而鉴定可变剪切事件。该软件安装比较简单,下载解压缩即可。基本用法如下
extract-as \ transcript.gtf \ ref.fa.hdrs > as_events.txt
该脚本需要两个参数,第一个参数为转录本对应的gtf
文件,在实际分析时,首先利用cufflinks
或者stringTie
从测序数据中组装到转录本序列,然后将组装的转录本与已知的转录本合并去冗余,用merge之后的非冗余转录本序列作为输入;第二个参数为基因组长度统计文件,后缀为hdrs
, 内容如下
>chr1 /len=249250621 /nonNlen=225280621 /org=Homo_Sapiens(hg19) >chr2 /len=243199373 /nonNlen=238204518 /org=Homo_Sapiens(hg19) >chr3 /len=198022430 /nonNlen=194797135 /org=Homo_Sapiens(hg19)
每一行代表一条染色体,分别给出总长度,去除N碱基之后的长度以及物种信息。最后生成的文件中会给出不同可变剪切事件的详细结果。Asprofile中的可变剪切类型定义如下
外显子跳跃的定义如下
分别用on
和off
表示发生了外显子跳跃前后的转录本,X
前缀表示外显子的边界非精确配对,和之前的exon相比,差了几个bp。
单个外显子跳跃称之为exon skipping, 用SKIP
表示,示意如下
多个外显子跳跃称之为cassette exons, 用MSKIP
表示, 示意如下
内含子保留的定义如下
分别用off
和on
表示发生内含子保留前后的转录本,X
前缀表示外显子的边界非精确配对,和之前的exon相比,差了几个bp。
单个内含子保留称之为retention of single intron, 用IR
表示,示意如下
多个内含子保留称之为retention of multiple introns,用MIR
表示,示意如下
外显子替换称之为alternative exon, 用AE
表示,示意如下
包含各种情况,比如exon的5’端不变,3’端发生变化,示意如下
exon的3’端不变,5’端发生变化,示意如下
exon的3’端和5’端同时发生变化,示意如下
转录起始位点的替换称之为alternative transcript start, 用TSS
表示,示意如下
转录起始位点的替换称之为alternative transcript termination, 用TTS
表示,和TSS
类似,只不过是3’末端位置发生了改变,示意如下
上述文件中可变剪切事件是以转录本为单位进行展示的,每行代表一个转录本,存在冗余,当我们想要知道某个基因上发生的可变剪切的类型和数量时,该文件就不够直观,官方提供了summarize_as.pl
脚本,可以方便的得到非冗余的可变剪切事件以及每个基因可变剪切事件的汇总信息,用法如下
perl summarize_as.pl \ transcript.gtf \ as.events.txt \ -p prefix
该脚本会生成两个文件,后缀为nr
的文件中,是非冗余的可变剪切事件;后缀为summary
的文件中是每个基因可变剪切的类型统计,示意如下
通过Asprofile
, 可以直接对同一个基因的多个转录本进行比较,从而鉴别不同的可变剪切事件,除此之外,Asprofile
还提供了定量的功能, 可以计算fpkm
值,通过collect_fpkm.pl
脚本可以汇总多个样本的可变剪切结果,用法如下
perl collect_fpkm.pl sampleA.AS,sampleB.AS -s txt
多个样本用逗号连接,-s
指定对应文件的后缀,通过样本名字加后缀识别对应的文件。该脚本会给出每个可变剪切事件在样本中的比例,基于这个比例我们可以进行差异分析。更多用法请参考官方说明和脚本的帮助文档。
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。