本篇文章为大家展示了fusioncatcher中怎么实现融合基因操作,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
fusioncatcher也提供了准备参考基因组的脚本,该脚本会从Ensembl等网站自动下载数据,所以使用时需要联网,用法如下
fusioncatcher-build -g mus_musculus -o /db/mouse -w asia.ensembl.org
-g
参数指定参考基因组的物种名称,-o
指定输出结果的目录,-w
参数指定ensembl web service, 即biomart的的网址。需要注意的是,-w
参数一定要设置成上述示例中的样子,默认参数是不可以的,另外对于人和小鼠而言,因为会从gencode数据库下载文件,而gencode的FTP地址发生了变动,所以要手动修改源代码中gencode的FTP地址。
对于-o
参数的取值,可以参考如下链接
ftp://ftp.ensembl.org/pub/current_fasta
该目录下每个物种对应一个文件夹,fusioncatcher就是根据-o
参数的取值来下载对应物种的序列。
除了下载文件,该步骤还包括建立索引等费时较长的步骤,所以这一步的运行时间会比较久,需要5-10个小时。
对于human
而言,官方提供基于Ensembl release 90版本建立的数据库,下载方式如下
mkdir -p /some/human/data/ cd /some/human/data/ wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.aa wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ab wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ac wget http://sourceforge.net/projects/fusioncatcher/files/data/human_v90.tar.gz.ad cat human_v90.tar.gz.* | tar xz ln -s human_v90 current
用法如下
fusioncatcher \ -d database_directory \ -i fastq_directory \ -o output_directory
-d
参数指定物种的参考基因组所在目录,-i
参数指定样本对应的原始测序数据fastq
文件所在目录,-o
参数指定输出结果的目录。
对于原始序列所在的目录,在该目录下可以同时存在多个样本的结果,软件会自动识别不同样本对应的R1和R2端数据。
由于fusioncatcher内置了质量控制的程序,会自动对fastq
文件进行去除adapter,去除低质量等分析,所以我们只需要提供原始的测序数据就可以了。
在输出目录中,final-list_candidate-fusion-genes.txt 就是最终预测到的所有融合基因,这个目录下文件很多,每个文件的详细解释可以参考官方文档。
上述内容就是fusioncatcher中怎么实现融合基因操作,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。