今天就跟大家聊聊有关STAR-fusion中怎么实现融合基因操作,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
从上图可以看出,STAR-fusion的运行时间有明显优势。
ROC曲线用于评估软件分析结果的好坏,横坐标为false positive rate, 简称FPR,代表分析结果的假阳性率,纵坐标为true positive rate, 又称之为敏感度sensitivity
。对于一个理想的分析结果而言,肯定是假阳性率越低越好,敏感度越高越好。
在ROC曲线中,在曲线下的面积称之为AUC值,一个软件的AUC值越大,则其综合效果最好。
从上图可以看出,对于文章中的测试数据,STAR-fusion的分析结果较好。
该软件的安装比较简单,直接下载文件,解压缩即可,其运行过程如下
需要注意一点,STAR-fusion依赖STAR来比对序列,STAR这个软件运行速度很快,但是其内存消耗是巨大的,对于人类基因组而言,比对时1个样本就需要30G左右的内存,如果运用于融合基因的检测,所用内存会上升到40G左右,这对于计算资源是一个考验,在实际分析时,要根据已有的硬件资源合理设置并行的样本数。
STAR-fusin具体的运行过程如下
首先需要建立参考基因组对应的reference lib, 至少需要参考基因组对应的fasta
文件和gtf
文件,另外还可以提供已有的融合基因的注释等。
对于human
和mouse
而言,提供了已经构建好的文件,链接如下
https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/
plug-n
是已经建立好的reference lib, 而source
里面包含了所需的原始文件。从原始文件构建reference lib的命令如下
FusionFilter/prep_genome_lib.pl \ --genome_fa ref_genome.fa \ --gtf ref_annot.gtf \ --fusion_annot_lib CTAT_HumanFusionLib.dat.gz \ --annot_filter_rule AnnotFilterRule.pm \ --pfam_db PFAM.domtblout.dat.gz
这个perl脚本是集成在star-fusion的安装目录在的,pfam_db
和anno_filter_rule
可以从上图中的source
压缩包中得到,而fusion_annot_lib
是融合基因的注释信息,对于人和小鼠,上图中提供了对应的注释文件,如果没有,也可以不提供。
默认会在当前目录生成一个名为ctat_genome_lib_build_dir
的目录,所有的结果文件都保存在这个目录下。
STAR-fusion支持两种模式,第一种是直接从fastq开始,第二种是自己手动进行STAR比对,然后在运行STAR-fusion。第一种模式的用法如下
双端测序
STAR-Fusion \ --genome_lib_dir CTAT_resource_lib \ --left_fq reads_1.fq \ --right_fq reads_2.fq \ --output_dir star_fusion_outdir
单端测序
STAR-Fusion \ --genome_lib_dir CTAT_resource_lib \ --left_fq reads_1.fq \ --output_dir star_fusion_outdir
其中的CTAT_resource_lib
就是第一步建立好的reference lib所在的目录。 直接根据STAR比对的结果进行分析的模式称之为Kickstart
模式,用法如下
STAR --genomeDir ${star_index_dir} \ --readFilesIn ${left_fq_filename} ${right_fq_filename} \ --twopassMode Basic \ --outReadsUnmapped None \ --chimSegmentMin 12 \ --chimJunctionOverhangMin 12 \ --alignSJDBoverhangMin 10 \ --alignMatesGapMax 100000 \ --alignIntronMax 100000 \ --chimSegmentReadGapMax 3 \ --alignSJstitchMismatchNmax 5 -1 5 5 \ --runThreadN ${THREAD_COUNT} \ --outSAMstrandField intronMotif \ --chimOutJunctionFormat 1
STAR-Fusion \ --genome_lib_dir CTAT_resource_lib \ -J Chimeric.out.junction \ --output_dir star_fusion_outdir
STAR-fusion的输出结果文件名为
star-fusion.fusion_predictions.tsv
列数很多,部分列截图如下
其中的JunctionRead
和SpanningFrag
,在之前的文章中有介绍,这些reads的个数越多,为一个真实的融合基因的可能性越大,SpliceType
表示断裂点breakpoint
是否位于exon边界,更详细的结果解读请参考官方文档。
看完上述内容,你们对STAR-fusion中怎么实现融合基因操作有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。