全外显子组测序(Whole Exome Sequencing, WES)是一种高通量测序技术,主要用于检测基因组中的外显子区域。外显子区域虽然只占整个基因组的1-2%,但包含了大部分已知的致病突变。WES在遗传病诊断、癌症研究等领域有着广泛的应用。除了单核苷酸变异(SNV)和小片段插入/缺失(Indel)外,拷贝数变异(Copy Number Variation, CNV)也是WES数据分析中的重要内容。CNV是指基因组中某一段DNA序列的拷贝数增加或减少,可能导致基因功能的改变,进而引发疾病。
本文将详细介绍如何进行WES的CNV分析,包括数据预处理、CNV检测、结果解读和验证等步骤。
在进行CNV分析之前,首先需要对WES数据进行预处理。预处理的主要目的是确保数据的质量,并为后续的CNV检测提供可靠的输入。
数据质量控制是WES分析的第一步。常用的质量控制工具包括FastQC和MultiQC。通过这些工具,可以评估测序数据的质量,包括测序深度、碱基质量、GC含量等指标。
fastqc sample.fastq.gz multiqc .
将测序数据比对到参考基因组是WES分析的关键步骤。常用的比对工具包括BWA和Bowtie2。比对后生成的BAM文件将用于后续的CNV分析。
bwa mem -t 8 reference.fa sample_R1.fastq.gz sample_R2.fastq.gz > sample.sam
samtools view -bS sample.sam > sample.bam
samtools sort -o sample.sorted.bam sample.bam
samtools index sample.sorted.bam
由于PCR扩增和测序过程中的偏差,测序数据中可能存在重复序列。这些重复序列会影响CNV检测的准确性,因此需要使用工具如Picard或samtools去除重复序列。
picard MarkDuplicates I=sample.sorted.bam O=sample.dedup.bam M=sample.metrics.txt
samtools index sample.dedup.bam
CNV检测是WES分析的核心步骤。常用的CNV检测工具包括ExomeDepth、CNVkit和Control-FREEC等。这些工具通过比较样本与对照样本的测序深度,来识别拷贝数变异。
ExomeDepth是一个专门用于WES数据的CNV检测工具。它通过构建贝叶斯模型,来估计每个外显子的拷贝数。
library(ExomeDepth)
data(exons.hg19)
data(ExomeCount)
# 创建ExomeDepth对象
my.counts <- ExomeCount[, c('sample1', 'sample2', 'sample3')]
my.reference.set <- as.matrix(ExomeCount[, c('control1', 'control2', 'control3')])
my.test <- my.counts[, 'sample1']
my.reference.selected <- apply(my.reference.set, 1, sum)
# 进行CNV检测
result <- ExomeDepth(my.test, my.reference.selected, exons.hg19)
print(result)
CNVkit是一个灵活的CNV检测工具,支持WES和全基因组测序数据。它通过计算每个区域的测序深度,并归一化后生成CNV图谱。
cnvkit.py batch sample.bam -n control.bam -m wgs -f hg19.fa --annotate refFlat.txt
cnvkit.py scatter sample.cnr -s sample.cns -o sample.scatter.pdf
Control-FREEC是一个用于检测CNV和LOH(杂合性缺失)的工具。它通过比较样本与对照样本的测序深度和B等位基因频率,来识别CNV。
freec -conf config.txt
CNV检测完成后,需要对结果进行解读。解读的主要内容包括CNV的类型(增益或缺失)、位置、大小以及涉及的基因。
CNV的类型包括增益(gain)和缺失(loss)。增益表示某一段DNA序列的拷贝数增加,缺失表示拷贝数减少。
CNV的位置通常以染色体和基因组坐标表示。例如,chr1:1000000-2000000表示位于1号染色体1000000到2000000之间的CNV。
CNV的大小是指CNV区域的长度。通常以碱基对(bp)为单位表示。
CNV可能影响一个或多个基因的功能。通过注释工具如ANNOVAR或VEP,可以确定CNV区域内的基因。
annotate_variation.pl -buildver hg19 -out sample -dbtype refGene sample.cnv
CNV检测结果的验证是确保分析准确性的重要步骤。常用的验证方法包括qPCR、FISH和芯片比较基因组杂交(aCGH)等。
qPCR是一种定量PCR技术,可以用于验证CNV的拷贝数变化。通过设计特异性引物,可以定量检测目标区域的拷贝数。
# 设计引物
primer3 -input sample.cnv -output sample.primer
# 进行qPCR
qPCR -primer sample.primer -template sample.dna
荧光原位杂交(FISH)是一种细胞遗传学技术,可以用于可视化CNV。通过使用荧光标记的探针,可以在显微镜下观察CNV的存在。
# 准备探针
fish_probe -input sample.cnv -output sample.probe
# 进行FISH
fish -probe sample.probe -cells sample.cells
芯片比较基因组杂交(aCGH)是一种高通量的CNV检测技术。通过将样本DNA与对照DNA杂交到芯片上,可以检测CNV的存在。
# 准备芯片
acgh_chip -input sample.cnv -output sample.chip
# 进行杂交
acgh_hybridize -chip sample.chip -sample sample.dna -control control.dna
WES的CNV分析是一个复杂但重要的过程。通过数据预处理、CNV检测、结果解读和验证等步骤,可以准确地识别和验证CNV。这些CNV信息对于理解疾病的遗传基础、开发新的诊断方法和治疗策略具有重要意义。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4580290/blog/4570275