snpEff工具有什么用

发布时间：2022-01-17 11:06:58 阅读：129 作者：小新栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章给大家分享的是有关snpEff工具有什么用的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

1. 查询所有可用的数据库列表

命令如下

java -jar snpEff.jar databases > snpEff.databases.list.txt

目前共有42791个数据库，snpEff.databases.list.txt文件内容如下

snpEff工具有什么用

给出了物种可用的数据库和对应的下载链接。

2. 下载数据库

以human为例,首先查看有哪些数据库

grep -i “Homo_sapiens” snpEff.databases.list.txt | cut -f1

GRCh47.75                                                   
GRCh48.86                                                   
hg19                                                        
hg19kg                                                      
hg38                                                        
hg38kg                                                      
testHg19ChrM

以GRCh48.86数据库为例，下载的命令如下

java -jar snpEff.jar download GRCh48.86

下载成功之后，在软件安装目录的data文件夹下，会有一个以数据库名字命名的文件夹，里面就是下载好的所有文件

GRCh48.86/
├── cytoBand.txt.gz
├── interactions.bin
├── motif.bin
├── nextProt.bin
├── pwms.bin
├── sequence.X.bin
├── sequence.Y.bin
└── snpEffectPredictor.bin

3. 进行注释

命令如下：

java -jar snpEff.jar GRCh48.86 examples/test.chr22.vcf > test.chr22.ann.vcf

GRCh48.86代表数据库的名字，test.chr22.vcf为输入文件，输入文件格式为VCF, 内容如下

snpEff工具有什么用

输出文件test.chr22.ann.vcf内容如下

snpEff工具有什么用

可以看到，就是在输入文件的INFO列新增了一个字段信息，字段的名字叫做ANN, 关于ANN中各个部分的详细信息可以参考VCF头部的注释部分。默认情况下会给出以下几种信息，以第一个突变位点为例进行说明

1. Allele

突变之后的碱基，第一个突变位点由T碱基突变成了C碱基，对应Allel的值为C

2.Annotation

由sequence ontology定义的突变类型，第一个突变位点的downstream_gene_variant在SO系统中的定位如下

snpEff工具有什么用

如果变异位点属于多个类型时，多个类型之间用&符号连接，比如

intron_variant&nc_transcript_variant

3. Annotation_Impact

对变异位点有害程度的简单评估，取值有HIGH, MODERATE, LOW, MODIFIER 4种，含义如下

snpEff工具有什么用

4. Gene_Name

基因名称

5. Gene_ID

基因ID

6. Feature_Type

想要分析的特征类型，transcript, motif, miRNA 等

7. Feature_ID

根据Feature Type指定的特征，给出对应的ID

8. Transcript_BioType

转录本类型, 通常采用Ensembl数据库的转录本类型

9. Rank

只有当变异位点位于基因区域时才有值，会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数，比如一个突变位点位于基因的第3个exon上，该基因一共有12个exon, 对应的Rank的值为3/12
当变异位点位于基因区域以外时，该字段的值为空

10. HGVS.c

采用HGVS标准命名的基因水平的变异情况

11. HGVS.p

采用HGVS标准命名的蛋白质水平的变异情况，只有当突变位点位于编码区是才会有值

12. cDNA.pos/cDNA.length

突变位点在cDNA上的位置/cDNA的总长度

13. CDS.pos/CDS.length

突变位点在CDS上的位置/CDS的总长度

14. AA.pos/AA.length

突变位点在氨基酸序列上的位置/氨基酸序列的总长度

15. Distance

变异位点与最近的特征的距离，当变异位点位于基因间区时，会给出与最近的基因之间的距离；当变异位点位于exon区域时，会给出与最近的内含子边界的距离，不同的情况，距离的定义不同。

16. ERRORS/WARNINGS/INFO

对注释结果的可靠程度进行评估，各种取值代表的含义如下图

snpEff工具有什么用

感谢各位的阅读！关于“snpEff工具有什么用”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

snpEff工具有什么用

1. 查询所有可用的数据库列表

2. 下载数据库

3. 进行注释

1. Allele

2.Annotation

3. Annotation_Impact

4. Gene_Name

5. Gene_ID

6. Feature_Type

7. Feature_ID

8. Transcript_BioType

9. Rank

10. HGVS.c

11. HGVS.p

12. cDNA.pos/cDNA.length

13. CDS.pos/CDS.length

14. AA.pos/AA.length

15. Distance

16. ERRORS/WARNINGS/INFO

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签