STAR-fusion中怎么实现融合基因操作

发布时间：2021-08-12 16:57:13 阅读：267 作者：Leah 栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

今天就跟大家聊聊有关STAR-fusion中怎么实现融合基因操作，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

1. 运行时间

STAR-fusion中怎么实现融合基因操作

从上图可以看出，STAR-fusion的运行时间有明显优势。

2. ROC曲线

ROC曲线用于评估软件分析结果的好坏，横坐标为false positive rate, 简称FPR,代表分析结果的假阳性率，纵坐标为true positive rate, 又称之为敏感度sensitivity。对于一个理想的分析结果而言，肯定是假阳性率越低越好，敏感度越高越好。

在ROC曲线中，在曲线下的面积称之为AUC值，一个软件的AUC值越大，则其综合效果最好。

STAR-fusion中怎么实现融合基因操作

从上图可以看出，对于文章中的测试数据，STAR-fusion的分析结果较好。

该软件的安装比较简单，直接下载文件，解压缩即可，其运行过程如下

STAR-fusion中怎么实现融合基因操作

需要注意一点，STAR-fusion依赖STAR来比对序列，STAR这个软件运行速度很快，但是其内存消耗是巨大的，对于人类基因组而言，比对时1个样本就需要30G左右的内存，如果运用于融合基因的检测，所用内存会上升到40G左右，这对于计算资源是一个考验，在实际分析时，要根据已有的硬件资源合理设置并行的样本数。

STAR-fusin具体的运行过程如下

1. 建立reference lib

首先需要建立参考基因组对应的reference lib, 至少需要参考基因组对应的fasta文件和gtf文件，另外还可以提供已有的融合基因的注释等。

对于human和mouse而言，提供了已经构建好的文件，链接如下

https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/

STAR-fusion中怎么实现融合基因操作

plug-n是已经建立好的reference lib, 而source里面包含了所需的原始文件。从原始文件构建reference lib的命令如下

FusionFilter/prep_genome_lib.pl \
--genome_fa ref_genome.fa \
--gtf ref_annot.gtf \
--fusion_annot_lib CTAT_HumanFusionLib.dat.gz \
--annot_filter_rule AnnotFilterRule.pm \
--pfam_db PFAM.domtblout.dat.gz

这个perl脚本是集成在star-fusion的安装目录在的，pfam_db和anno_filter_rule可以从上图中的source压缩包中得到，而fusion_annot_lib是融合基因的注释信息，对于人和小鼠，上图中提供了对应的注释文件，如果没有，也可以不提供。

默认会在当前目录生成一个名为ctat_genome_lib_build_dir的目录，所有的结果文件都保存在这个目录下。

2. 运行STAR-fusion

STAR-fusion支持两种模式，第一种是直接从fastq开始，第二种是自己手动进行STAR比对，然后在运行STAR-fusion。第一种模式的用法如下

双端测序

STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--right_fq reads_2.fq \
--output_dir star_fusion_outdir

单端测序

STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
--left_fq reads_1.fq \
--output_dir star_fusion_outdir

其中的CTAT_resource_lib就是第一步建立好的reference lib所在的目录。直接根据STAR比对的结果进行分析的模式称之为Kickstart模式，用法如下

1. STAR比对

STAR --genomeDir ${star_index_dir} \                                                                                     
  --readFilesIn ${left_fq_filename} ${right_fq_filename} \                                                                      
  --twopassMode Basic \                                                                                                      
  --outReadsUnmapped None \                                                                                                  
  --chimSegmentMin 12 \                                                                                                    
  --chimJunctionOverhangMin 12 \                                                                                           
  --alignSJDBoverhangMin 10 \                                                                                              
  --alignMatesGapMax 100000 \                                                                                             
  --alignIntronMax 100000 \                                                                                                
  --chimSegmentReadGapMax 3 \                                                                                    
  --alignSJstitchMismatchNmax 5 -1 5 5 \
  --runThreadN ${THREAD_COUNT} \                                                                                                           
  --outSAMstrandField intronMotif \
  --chimOutJunctionFormat 1

2. 运行STAR-fusion

STAR-Fusion \
--genome_lib_dir CTAT_resource_lib \
-J Chimeric.out.junction \
--output_dir star_fusion_outdir

STAR-fusion的输出结果文件名为

star-fusion.fusion_predictions.tsv

列数很多，部分列截图如下

STAR-fusion中怎么实现融合基因操作

其中的JunctionRead和SpanningFrag，在之前的文章中有介绍，这些reads的个数越多，为一个真实的融合基因的可能性越大，SpliceType表示断裂点breakpoint是否位于exon边界，更详细的结果解读请参考官方文档。

看完上述内容，你们对STAR-fusion中怎么实现融合基因操作有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注亿速云行业资讯频道，感谢大家的支持。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

STAR-fusion中怎么实现融合基因操作

1. 运行时间

2. ROC曲线

1. 建立reference lib

2. 运行STAR-fusion

1. STAR比对

2. 运行STAR-fusion

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签