怎么使用muscle进行多序列比对,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
muscle是最为广泛使用的多序列比对工具之一,其速度和准确度比clustal都要更加优秀,在几秒钟的时间就可以完成上百条序列的比对,而且用法简单。
在下载页面,提供了多个操作系统的可执行文件。
linux下安装的代码如下
wget https://www.drive5.com/muscle/downloads3.8.31/muscle3.8.31_i86linux64.tar.gz tar xzvf muscle3.8.31_i86linux64.tar.gz mv muscle3.8.31_i86linux64 muscle chmod +x muscle
由于解压后的文件名很长,这里对文件进行了重命名,然后添加了可执行权限。为了方便调用,可以将该文件添加到PATH环境变量中。muscle的基本用法如下
muscle -in seqs.fa -out seqs.afa
输入序列为FASTA格式,如果输入序列中出现了gap, 会先去除这些gap, 然后在进行多序列比对。默认输出的比对结果也为fasta格式,也支持phylip
, msf
, clustalw
等其他格式。
除了多序列比对外,muscle还可以构建进化树,支持以下两种建树方式
NJ
UPGMA
NJ法构建的进化树可信度更高,而UPGMA建树的速度更快。基本用法如下
muscle -maketree -in seqs.afa -out seqs.phy -cluster neighborjoining
-cluster
参数指定建树的方法,默认为upgma。输出的tree文件格式为Newick格式。
muscle的默认参数设置最大化的保证了比对的准确度,对于大的序列,如果比对速度不是很理想时,可以适当的调整参数。
对于核酸和氨基酸序列,官方分别推荐了速度最快的参数设置。
核酸
muscle -in seqs.fa -out seqs.afa -maxiters 1 -diags
氨基酸
muscle -in seqs.fa -out seqs.afa -maxiters 1 -diags -sv -distance1 kbit20_3
使用muscle时,其默认参数设置就能够满足绝大部分的使用场景,只有对于较大的输入序列,才需要调整参数。
EBI提供了muscle的在线服务,网址如下
https://www.ebi.ac.uk/Tools/msa/muscle/
用法和clustal的用法是类似的,这里就不赘述了。对于500条以下而且数据量小于1Mb的序列,可以直接使用该在线服务。
关于怎么使用muscle进行多序列比对问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。