温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何进行WES的CNV分析

发布时间:2021-11-22 17:48:51 阅读:761 作者:柒染 栏目:大数据
开发者测试专用服务器限时活动,0元免费领,库存有限,领完即止! 点击查看>>

如何进行WES的CNV分析

引言

全外显子组测序(Whole Exome Sequencing, WES)是一种高通量测序技术,主要用于检测基因组中的外显子区域。外显子区域虽然只占整个基因组的1-2%,但包含了大部分已知的致病突变。WES在遗传病诊断、癌症研究等领域有着广泛的应用。除了单核苷酸变异(SNV)和小片段插入/缺失(Indel)外,拷贝数变异(Copy Number Variation, CNV)也是WES数据分析中的重要内容。CNV是指基因组中某一段DNA序列的拷贝数增加或减少,可能导致基因功能的改变,进而引发疾病。

本文将详细介绍如何进行WES的CNV分析,包括数据预处理、CNV检测、结果解读和验证等步骤。

数据预处理

在进行CNV分析之前,首先需要对WES数据进行预处理。预处理的主要目的是确保数据的质量,并为后续的CNV检测提供可靠的输入。

1. 数据质量控制

数据质量控制是WES分析的第一步。常用的质量控制工具包括FastQC和MultiQC。通过这些工具,可以评估测序数据的质量,包括测序深度、碱基质量、GC含量等指标。

fastqc sample.fastq.gz
multiqc .

2. 数据比对

将测序数据比对到参考基因组是WES分析的关键步骤。常用的比对工具包括BWA和Bowtie2。比对后生成的BAM文件将用于后续的CNV分析。

bwa mem -t 8 reference.fa sample_R1.fastq.gz sample_R2.fastq.gz > sample.sam
samtools view -bS sample.sam > sample.bam
samtools sort -o sample.sorted.bam sample.bam
samtools index sample.sorted.bam

3. 去除重复序列

由于PCR扩增和测序过程中的偏差,测序数据中可能存在重复序列。这些重复序列会影响CNV检测的准确性,因此需要使用工具如Picard或samtools去除重复序列。

picard MarkDuplicates I=sample.sorted.bam O=sample.dedup.bam M=sample.metrics.txt
samtools index sample.dedup.bam

CNV检测

CNV检测是WES分析的核心步骤。常用的CNV检测工具包括ExomeDepth、CNVkit和Control-FREEC等。这些工具通过比较样本与对照样本的测序深度,来识别拷贝数变异。

1. ExomeDepth

ExomeDepth是一个专门用于WES数据的CNV检测工具。它通过构建贝叶斯模型,来估计每个外显子的拷贝数。

library(ExomeDepth)
data(exons.hg19)
data(ExomeCount)

# 创建ExomeDepth对象
my.counts <- ExomeCount[, c('sample1', 'sample2', 'sample3')]
my.reference.set <- as.matrix(ExomeCount[, c('control1', 'control2', 'control3')])
my.test <- my.counts[, 'sample1']
my.reference.selected <- apply(my.reference.set, 1, sum)

# 进行CNV检测
result <- ExomeDepth(my.test, my.reference.selected, exons.hg19)
print(result)

2. CNVkit

CNVkit是一个灵活的CNV检测工具,支持WES和全基因组测序数据。它通过计算每个区域的测序深度,并归一化后生成CNV图谱。

cnvkit.py batch sample.bam -n control.bam -m wgs -f hg19.fa --annotate refFlat.txt
cnvkit.py scatter sample.cnr -s sample.cns -o sample.scatter.pdf

3. Control-FREEC

Control-FREEC是一个用于检测CNV和LOH(杂合性缺失)的工具。它通过比较样本与对照样本的测序深度和B等位基因频率,来识别CNV。

freec -conf config.txt

结果解读

CNV检测完成后,需要对结果进行解读。解读的主要内容包括CNV的类型(增益或缺失)、位置、大小以及涉及的基因。

1. CNV类型

CNV的类型包括增益(gain)和缺失(loss)。增益表示某一段DNA序列的拷贝数增加,缺失表示拷贝数减少。

2. CNV位置

CNV的位置通常以染色体和基因组坐标表示。例如,chr1:1000000-2000000表示位于1号染色体1000000到2000000之间的CNV。

3. CNV大小

CNV的大小是指CNV区域的长度。通常以碱基对(bp)为单位表示。

4. 涉及的基因

CNV可能影响一个或多个基因的功能。通过注释工具如ANNOVAR或VEP,可以确定CNV区域内的基因。

annotate_variation.pl -buildver hg19 -out sample -dbtype refGene sample.cnv

验证

CNV检测结果的验证是确保分析准确性的重要步骤。常用的验证方法包括qPCR、FISH和芯片比较基因组杂交(aCGH)等。

1. qPCR

qPCR是一种定量PCR技术,可以用于验证CNV的拷贝数变化。通过设计特异性引物,可以定量检测目标区域的拷贝数。

# 设计引物
primer3 -input sample.cnv -output sample.primer

# 进行qPCR
qPCR -primer sample.primer -template sample.dna

2. FISH

荧光原位杂交(FISH)是一种细胞遗传学技术,可以用于可视化CNV。通过使用荧光标记的探针,可以在显微镜下观察CNV的存在。

# 准备探针
fish_probe -input sample.cnv -output sample.probe

# 进行FISH
fish -probe sample.probe -cells sample.cells

3. aCGH

芯片比较基因组杂交(aCGH)是一种高通量的CNV检测技术。通过将样本DNA与对照DNA杂交到芯片上,可以检测CNV的存在。

# 准备芯片
acgh_chip -input sample.cnv -output sample.chip

# 进行杂交
acgh_hybridize -chip sample.chip -sample sample.dna -control control.dna

结论

WES的CNV分析是一个复杂但重要的过程。通过数据预处理、CNV检测、结果解读和验证等步骤,可以准确地识别和验证CNV。这些CNV信息对于理解疾病的遗传基础、开发新的诊断方法和治疗策略具有重要意义。

参考文献

  1. ExomeDepth: A robust statistical framework for detecting CNVs in WES data. Bioinformatics, 2012.
  2. CNVkit: Genome-wide copy number detection and visualization from targeted DNA sequencing. PLoS Comput Biol, 2016.
  3. Control-FREEC: A tool for assessing copy number and allelic content using next-generation sequencing data. Bioinformatics, 2012.
  4. ANNOVAR: Functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res, 2010.
  5. Primer3: A web-based tool for PCR primer design. Bioinformatics, 2000.
  6. FISH: Fluorescence in situ hybridization. Methods Mol Biol, 2017.
  7. aCGH: Array comparative genomic hybridization. Nat Protoc, 2007.

亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

原文链接:https://my.oschina.net/u/4580290/blog/4570275

AI

开发者交流群×