温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

CNVnator的原理是什么

发布时间:2021-07-04 19:09:11 来源:亿速云 阅读:409 作者:Leah 栏目:大数据

这期内容当中小编将会给大家带来有关CNVnator的原理是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

1.比对参考基因组

要计算测序深度,首先需要将测序的reads比对到参考基因组上,比对是最关键的一个步骤就是如何比对到基因组多个区域的reads。当一条reads比对到基因组上的多个位置时,单从数据分析的角度,是完全无法区分其究竟属于哪一个区域的,因为这些区域同源度非常的高。对于这样的reads, 有两种处理策略,第一种是直接剔除,保留unque-mapping的reads; 第二种是随机选取其中的一个位置,作为该reads的真实比对位置,cnvnator算法采用的是第二种策略。

2. 构建RD signal

比对之后,就可以将基因组划分为等长窗口,计算每个窗口内的测序深度了,这里需要注意的是, 利用gc含量在校正原始的测序深度。PCR对不同GC含量序列的扩增存在偏倚,所以在计算窗口内的RD signal, 需要校正这一系统误差,cnvnator的校正公式如下

CNVnator的原理是什么

global表示所有bin窗口内原始RD signal的平均值,gc表示和当前bin的GC含量相同的所有bin窗口原始RD signal的平均值,将二者的比值作为一个系数,对原始的RD signal进行校正。

3. mean-shift 聚类

mean-shift是一种聚类算法,利用校正之后的RD signal值,对邻近的bin进行聚类,理论上聚为一类的bin具有相同的cnv拷贝数,图示如下

CNVnator的原理是什么

需要注意的是,这里只是对染色体位置接近的bin进行聚类,并不是等同于CNV分析中的segmentation。

4. segmentation

上述的聚类信号只有在染色体的局部具有意义,当放到大全基因组范围来识别CNV时,必须通过segmentation算法来实现,cnvnator采用的是自己独特的算法,有个关键的参数称之为bandwidth, 不同的取值会影响到CNV区域的划分,图示如下

CNVnator的原理是什么

取值越大,小片段的CNV信号会被掩盖,取值越小,数值越小,CNV检测的假阳性率会高。

5. signal merging

根据与邻近segment RD signal的差异, 将原始划分的segment进行合并。

6. cnv calling

对划分好的不同segment, 预测其对应的拷贝数。

在利用CNVnator软件进行分析时,bin和bandwidth两个参数的选择对结果影响很大。通过该软件可以检测各种长度的cnv, 而且分型的准确率非常高,是一款值得推荐的cnv检测软件。


上述就是小编为大家分享的CNVnator的原理是什么了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI