本篇文章给大家分享的是有关PennCNV如何利用SNP芯片检测CNV,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
通过SNP芯片来检测CNV,对应的分析软件有很多,PennCNV就是其中之一,该软件通过隐马可夫模型来检测CNV, 官网如下
http://penncnv.openbioinformatics.org/en/latest/
数据分析的pipeline示意如下
首先我们需要准备signal intensity file, 该文件用来记录每个位点对应的LRR和BAF两个统计值,有两种格式,第一种格式示意如下
\t
分隔的6列,第一列为SNP的名称,第二列为snp位点所在的染色体名称,第三列为snp位点所在的染色体位置,第四列为该位点的分型结果,第五列为LRR统计值,第六列为BAF统计值,对于cnv calling而言,最重要的是Name, LRR, BAF这3列的值,所以该文件还可以有第二种格式,示意如下
其次需要芯片平台对应的HMM和PFB文件,在软件的安装目录自带了部分芯片对应的这两种文件。PFB是population frequency of B allel的缩写,本质是每个SNP位点的MAF, 同时还提供了染色体位置的注释信息,内容示意如下
对于SNP芯片上集成的非SNP探针,约定其PFB的值为2。需要注意的是,只有该文件中记录的位点才会用于CNV calling的分析,当我们需要筛选位点时,只需要在该文件中进行过滤即可。HMM文件是软件自带的,提供了不同拷贝数之间的转移概率。准备好输入文件之后,就可以进行分析了,常见的分析步骤如下
对于独立样本,检测CNV的命令如下
detect_cnv.pl \
-test \
-hmm lib/hh650.hmm \
-pfb lib/hh650.hg18.pfb \
sample.txt \
-log sample.log \
-out sample.rawcnv
输出内容如下所示
第一列为CNV的染色体区域,第二列为该CNV区域包含的SNP位点数目,第三列为CNV区域的长度,第四列中cn
表示该CNV区域的拷贝数,后面依次是样本对应的输入文件,起始和终止的snp name, 打分值。
常见的筛选策略如下
根据长度和包含的位点数等统计指标进行过滤
根据染色体区域进行筛选,过滤掉位于特殊区域的CNV,比如着丝粒,端粒等区域
根据长度过滤的命令如下
filter_cnv.pl \
-numsnp 10 \
-length 50k \
sampleall.rawcnv
过滤掉包含的snp位点数少于10个,长度小于50kb的CNV区域。
通常会对CNV区域进行以下注释
overlap的基因
上下游最邻近的基因
overlap的功能元件
命令如下
scan_region.pl \
sampleall.rawcnv \
hg19_refGene.txt \
-refgene \
-reflink hg19_refLink.txt \
> sampleall.cnv.hg19
对CNV区域内SNP位点的LRR和BAF值进行可视化,命令如下
visualize_cnv.pl \
-format plot \
-signal sample.txt \
sampleall.rawcnv
结果示意如下
该软件还有很多高级的用法,比如家系样本的CNV检测,case/control的关联分析等等。
以上就是PennCNV如何利用SNP芯片检测CNV,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。