今天就跟大家聊聊有关XHMM分析原理是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
XHMM是一款利用WES数据分析CNV的软件,利用PCA降维来归一化外显子区的测序深度信息,然后通过隐马可夫模型来预测CNV,该软件的pipeline示意如下
可以分成4个大的步骤
将测序的reads比对到参考基因组上,计算外显子区的原始测序深度。CNV预测的核心是通过测序深度和cnv的相关性来建模,所以需要保证这里的测序深度和真实DNA拷贝数的一致性,需要去除PCR重复。
官方推荐使用GATK最佳实践中的预处理流程, 同时还可以添加一个MAPQ的过滤,筛选MAPQ大于20的alignemnts,得到可以用于下游分析的bam文件。
计算每个样本各个外显子的平均测序深度,得到一个exon平均测序深度的矩阵,示意如下
每一行为一个样本,每一列为一个eoxn区域,对应的值为该exon区域在样本内的平均测序深度。
在归一化之前,可以先对这个矩阵进行一个预处理,即对样本或者目标区域进行过滤。对于目标区域,去除GC含量小于0.1或者大于0.9的目标区域,去除包含10%以上的低复杂度序列的目标区域,也可以根据测序深度进行过滤,去除过低或者过高的目标区域,比如去除测序深度小于5X的目标区域;对于样本,可以根据测序深度的分布进行分析,去除离群的样本。
预处理的目的是尽量保证用于后续分析的样本在测序深度分布上的均一性,减小样本间的偏差。预处理之后就可以进行归一化,考虑到GC含量带来的PCR偏倚,芯片捕获,mapping准确率等系统误差的影响,采用PCA算法来去除系统噪声,得到归一化之后的测序深度。
效果如下图所示
左侧为原始的测序深度,右侧为归一化之后的测序深度,每条线代表一个样本的测序深度值,灰色区域表示正常的二倍体,绿色区域表示拷贝数增加,归一化之后二者区分的更加显著。
将CNV在全基因组范围内分布的比例,长度,exon之间的距离等因素都考虑进来,构建了隐马可夫模型, 将染色体区域分为以下3种类型
diploid
deletion
duplication
第一种代表拷贝数正常,为2拷贝,对应的测序深度为平均值,即baseline, 第二种代表缺失,小于2拷贝,测序深度低于平均值,第三种代表重复,大于2拷贝,测序深度高于平均值。
隐马可夫模型中3种状态之间的转移概率矩阵如下所示
模型训练好之后,对于每个样本,通过维特比算法来分析染色体区域的拷贝数状态,从而检测CNV。
看完上述内容,你们对XHMM分析原理是怎样的有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。