这期内容当中小编将会给大家带来有关CNVnator的原理是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
1.比对参考基因组
要计算测序深度,首先需要将测序的reads比对到参考基因组上,比对是最关键的一个步骤就是如何比对到基因组多个区域的reads。当一条reads比对到基因组上的多个位置时,单从数据分析的角度,是完全无法区分其究竟属于哪一个区域的,因为这些区域同源度非常的高。对于这样的reads, 有两种处理策略,第一种是直接剔除,保留unque-mapping的reads; 第二种是随机选取其中的一个位置,作为该reads的真实比对位置,cnvnator算法采用的是第二种策略。
比对之后,就可以将基因组划分为等长窗口,计算每个窗口内的测序深度了,这里需要注意的是, 利用gc含量在校正原始的测序深度。PCR对不同GC含量序列的扩增存在偏倚,所以在计算窗口内的RD signal, 需要校正这一系统误差,cnvnator的校正公式如下
global表示所有bin
窗口内原始RD signal的平均值,gc表示和当前bin
的GC含量相同的所有bin
窗口原始RD signal的平均值,将二者的比值作为一个系数,对原始的RD signal进行校正。
mean-shift是一种聚类算法,利用校正之后的RD signal值,对邻近的bin
进行聚类,理论上聚为一类的bin
具有相同的cnv拷贝数,图示如下
需要注意的是,这里只是对染色体位置接近的bin
进行聚类,并不是等同于CNV分析中的segmentation。
上述的聚类信号只有在染色体的局部具有意义,当放到大全基因组范围来识别CNV时,必须通过segmentation算法来实现,cnvnator采用的是自己独特的算法,有个关键的参数称之为bandwidth, 不同的取值会影响到CNV区域的划分,图示如下
取值越大,小片段的CNV信号会被掩盖,取值越小,数值越小,CNV检测的假阳性率会高。
根据与邻近segment RD signal的差异, 将原始划分的segment进行合并。
对划分好的不同segment, 预测其对应的拷贝数。
在利用CNVnator软件进行分析时,bin和bandwidth两个参数的选择对结果影响很大。通过该软件可以检测各种长度的cnv, 而且分型的准确率非常高,是一款值得推荐的cnv检测软件。
上述就是小编为大家分享的CNVnator的原理是什么了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。