温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何理解数据库

发布时间:2021-11-22 19:37:57 来源:亿速云 阅读:238 作者:柒染 栏目:大数据

这篇文章给大家介绍如何理解数据库,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

COSMIC是癌症相关体细胞突变位点的最大的数据库之一,网址如下:

https://cancer.sanger.ac.uk/cosmic/

最新版本为v85,更新与2018年5月8日。

如何理解数据库

整个网站由以下4个项目构成

1.  COSMIC

癌症相关的体细胞位点,是整个网站的核心,收录了来自不同研究机构和数据库的体细胞突变数据,并提供了方便的浏览,检索,下载功能。

2. Cell Lines Project

对癌症研究中常用的细胞系样本进行深入研究,分析其突变信息。相比COSMIC, 整个项目中涵盖的变异数据会少一点。该项目网址如下:

https://cancer.sanger.ac.uk/cell_lines

3. COSMIC-3D

通过交互式的网页,展现了基因突变导致的蛋白结构域的变化。该项目网址如下

https://cancer.sanger.ac.uk/cosmic3d/

在搜索框中输入一个具体的基因名称或者蛋白名称,可以查看具体的记录。官
方的DEMO数据如下

如何理解数据库

4. Cancer Gene Census

在癌症研究中,找到相关的突变基因是最核心的目的之一。通过对各种癌症进行调研,整理了一份癌症相关的突变基因列表,这份列表就是Cancer Gene Census,简称CGC。该项目网址如下

https://cancer.sanger.ac.uk/census

CGC种,将所有的癌症相关基因分成两类

  1. Tier1
    对于这部分基因,有充分的证据表明,正是由于这些基因的突变,导致癌症的进一步发生。

  2. Tier2
    对于这部分基因,只能说在癌症中检测到了大量该基因的突变,但是并没有充分证据表明该基因突变对癌症发生的影响。


登陆之后,可以下载CGC的完整列表

如何理解数据库

COSMIC不仅提供了原始数据的下载功能,还整理了许多有重要意义的数据集供我们参考和下载。

1. Downloads

下载Cosmic数据库中的数据,有以下几种数据供下载

  1. Classification Information

  2. COSMIC Complete Mutation Data(Targeted Screens)

  3. COSMIC Matation Data(Genome Screens)

  4. COSMIC Mutation Data

  5. Structural Genomic Rearrangements

  6. Complete Fusion Export

  7. All Mutations in Census Genes

  8. Non coding variants

  9. Copy Number Variants

  10. Gene Expression

  11. Methylation

  12. Cancer Gene Census

  13. COSMIC Sample Features

  14. COSMIC HGNC

  15. COSMIC Resistance Mutations

  16. ASCAT Ploidy and Purity Estimates

  17. VCF Files


按需下载即可。下载时需要登陆的,而且部分数据只对大学和非盈利机构的用户公开。

2. Gene Curation

Cancer Gene Census基因列表中,挑选没有已知数据库的基因进行展示

如何理解数据库

3. Gene Fusion Curation

融合基因的列表

如何理解数据库

4. Genome Screens

对所有的数据集进行了整理,分成了大规模的全基因组数据和来自ICGC, TCGA, PCGP两部分来呈现

如何理解数据库

如何理解数据库

5.  Drug Resistance

研究药物靶标基因的相关突变,对于临床治疗有重要意义。Cosmic收集和整理了药物靶标基因的相关突变。

如何理解数据库

6. Mutational Signatures

在癌症中,突变位点是非常多。研究人员提出了Mutational Signatures这个概念,突变的特征集合,共划分了96种突变类型,首先根据碱基突变的类型,有C>A, C>G, C>T, T>A, T>C, T>G共6种基本类型,然后在考虑突变位点上有和下游的1个碱基,每个碱基有A,T,C,G 4种可能的情况,一共就有6X4X4 = 96 种突变类型。

不同癌症中这96种突变类型出现的频率有所不同,将96种突变类型的频率结合起来,可以作为一种固定的突变模式,用来表征某一类癌症。

Cosmic基于10952给外显子和1048个全基因组数据,总结出了30种Mutational Signatures。其中Signature1示例如下

如何理解数据库

在网站上,还提供了一系列的工具。

1. Cancer Browser

通过不同的组织来查看相关类型的癌症,更加的直观方便。

如何理解数据库

2. Genome Broswer

基因组浏览器

如何理解数据库

3. CONAN

copy nunber analysis, 查询拷贝数变异的工具。

如何理解数据库

4. GA4GH Beacon Query

一个API工具,可以快速查询COSMIC数据库中某个突变是否存在。返回JSON格式的数据,

如何理解数据库

以上查询对应的链接如下

https://cancer.sanger.ac.uk/api/ga4gh/beacon?allele=A&chrom=7&dataset=cosmic&format=json&pos=140753336&ref=38

返回的内容如下

{
   "response" : {
      "exists" : "true"
   },
   "query" : {
      "allele" : "A",
      "ref" : "GRCh48",
      "pos" : "140753336",
      "dataset" : "cosmic",
      "chrom" : "7"
   },
   "beacon_id" : "COSMIC Beacon",
   "version" : "85"
}

COSMIC数据库中默认的坐标是基于hg38版本的基因组的,可以在首页的Genome Version中选择CRCH37,切换到hg19版本。

关于如何理解数据库就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI