小编给大家分享一下如何利用CODEML中的Site Models进行正选择基因分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!
Site Models 简介
Site Models是PAML软件CODEML程序的一个正选择作用分析模型,其主要观点是同一序列不同位点的ω值不同,其中ω = dN/dS,表示非同义/同义替换率。ω比率用于度量正选择作用。简而言之,ω值 < 1,= 1,> 1表示负的纯净选择,中性进化和正选择。然而所有位点的平均ω比率和所有的种系几乎从不 > 1,因为正选择不可能在漫长的时间中作用于所有的位点。因此,真正要探究的只是一些种系和一些位点所受的正选择影响。
在进行Site Models分析时,需要设置control file中的Model=0。Site Models中有多个不同的模型,可由Nssites参数指定,根据不同Model的选择设置不同的值。值得注意的是,以此可以选择多个Site Models。如Nssites=0 1 2 3 7 8。
不同的Site Models 表示什么意思?
M0即one-ratio Model,值得是所有位点的ω值是恒定的;
M1表示加假定有一部分位点的ω值为0,其他位点的ω值为1;
M2是在M1的基础上增加了第三类ω值,该类ω是通过数据计算得到的,有可能大于1;
M3假定所有位点的ω值呈简单的离散分布趋势;
M7假定所有位点的ω属于矩阵(0,1)且呈beta分布;
M8是在M7的基础上增加另一类ω值,该值可通过计算得到,可以大于1;
不同Model的比较可以得到什么样的结果?
在Site Models 中,M0表示one ratio for all sites, M3表示所有位点的ω值呈简单的离散分布。对于这两个模型的比较并非用于正选择作用的检测,而是用于位点间ω值是否一致的检测。
M1 and M2 以及M7 and M8是用于正选择作用的检测,作者推荐使用这两组比较进行LRT检验来验证正选择。不过Prof.Yang认为,The M1-M2 comparison 与 the M7- M8 comparison相比,更加的稳定。M7和M8俩模型计算时间会长一些,如果要进行分析的基因较多,可以考虑不比较 M7- M8。
如何检测positive sites?
CODEML computation:主要是对control file中的命令值进行设定之后,运行CODEML程序。运行CODEML程序需要三个文件,分别是序列文件(PHYLIP格式),树文件和控制文件。控制文件示例:
seqfile = Fungi.fasta * sequence data file name treefile = Fungi.tree * tree structure file name outfile = mlc * main result file name noisy = 3 * 0,1,2,3,9: how much rubbish on the screen verbose = 0 * 1: detailed output, 0: concise output runmode = 0 * 0: user tree; 1: semi-automatic; 2: automatic * 3: StepwiseAddition; (4,5):PerturbationNNI; -2: pairwise seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree aaDist = 0 * 0:equal, +:geometric; -:linear, {1-5:G1974,Miyata,c,p,v} model = 0 NSsites = 0 3 1 2 7 8 * 0:one w; 1:NearlyNeutral; 2:PositiveSelection; 3:discrete; * 4:freqs; 5:gamma;6:2gamma;7:beta;8:beta&w;9:betaγ10:3normal icode = 0 * 0:standard genetic code; 1:mammalian mt; 2-10:see below Mgene = 0 * 0:rates, 1:separate; 2:pi, 3:kappa, 4:all fix_kappa = 0 * 1: kappa fixed, 0: kappa to be estimated kappa = .3 * initial or fixed kappa fix_omega = 0 * 1: omega or omega_1 fixed, 0: estimate omega = 1.3 * initial or fixed omega, for codons or codon-based AAs ncatG = 10 * # of categories in the dG or AdG models of rates getSE = 0 * 0: don't want them, 1: want S.E.s of estimates RateAncestor = 0 * (0,1,2): rates (alpha>0) or ancestral states (1 or 2) Small_Diff = .45e-6 cleandata = 1 * remove sites with ambiguity data (1:yes, 0:no)? fix_blength = 0 * 0: ignore, -1: random, 1: initial, 2: fixed, 3: proportional
Likelihood ratio test: 即对两个模型进行显著性水平比较,可以使用PAML软件自带Chi2子程序进行计算。先计算两个对应模型 Ln L 差值,并取绝对值后的数值乘以2,即2△Ln L =|Ln L 1-Ln L2|。利用Chi2程序计算P值,命令为:Chi2 2 2.03(2为自由度df,site models中df通常使用2;2.03为2△Ln L)。
输出值 prob <0.05视为显著,可认为该基因受到正选择。
PP value computation:主要是指位点后验概率的计算,该结果是显示在主输出文件 mlc中。标 "*" 号的位点为显著的正选择位点。CODEML程序中常见的计算后验概率的方法有BEB和NEB。与BEB相比,NEB在计算的过程中往往会忽略抽样误差。因此,Prof.Yang建议在读取运算结果时,可以直接将NEB result忽略,但值得注意的是,BEB只能在M2a和M8 model下运行。
看完了这篇文章,相信你对“如何利用CODEML中的Site Models进行正选择基因分析”有了一定的了解,如果想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。