这篇文章给大家分享的是有关COG数据库有什么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
为了研究不同物种间保守的蛋白功能,进一步揭示其进化关系,1997年的时候科学家选取了七个完整基因组的蛋白序列,根据序列和功能相似性,将这些蛋白进行了分类。这个分类叫做cluster of orthologous group,简称COG。每个COG是一组同源蛋白的集合,具有相同的生物学功能。 官网如下
https://www.ncbi.nlm.nih.gov/COG/
构建原始的COG使用的蛋白序列来自以下7个物种
E.coli
H.influenzae
M. genitalium
M. pneumoniae
Synechocystis sp.
M. jannaschii
S. cerevisiae
可以发现,这些物种都是细菌。所以COG这个概念指的是细菌中的同源蛋白。
随着测序技术的发展,越来越多的物种拥有了完整的基因组序列。2003年的时候,又根据66个细菌物种的蛋白序列,对之前的COG结果进行了补充和拓展。
同时将orthologous group 的概念推广到了真核生物中,根据7个真核生物的蛋白序列构建了真核生物中的同源蛋白簇, 全称为eukaryotic orthologous groups, 简称KOG。
之后又陆续在不同类型的物种中建立起相关的同源蛋白簇。古菌中的同源蛋白簇简称为arCOG, 噬菌体中的同源蛋白簇简称为POG,感染真核生物的病毒中的同源蛋白簇简称为NCVOG,巨型病毒的同源蛋白簇简称为mimiCOG。
在官网上,提供了下载功能。这里以COG
为例进行说明。FTP地址如下
ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data
fun2003-2014.tab 保存了COG的分类信息,将所有的COG的功能分为了以下26个类别,每个类别用一个字母表示
# Code Name
J Translation, ribosomal structure and biogenesis
A RNA processing and modification
K Transcription
L Replication, recombination and repair
B Chromatin structure and dynamics
D Cell cycle control, cell division, chromosome partitioning
Y Nuclear structure
V Defense mechanisms
T Signal transduction mechanisms
M Cell wall/membrane/envelope biogenesis
N Cell motility
Z Cytoskeleton
W Extracellular structures
U Intracellular trafficking, secretion, and vesicular transport
O Posttranslational modification, protein turnover, chaperones
X Mobilome: prophages, transposons
C Energy production and conversion
G Carbohydrate transport and metabolism
E Amino acid transport and metabolism
F Nucleotide transport and metabolism
H Coenzyme transport and metabolism
I Lipid transport and metabolism
P Inorganic ion transport and metabolism
Q Secondary metabolites biosynthesis, transport and catabolism
R General function prediction only
S Function unknown
cognames2003-2014.tab 文件保存了COG的详细信息,包括编号,对应的分类,功能描述等信息。示例如下
# COG func name
COG0001 H Glutamate-1-semialdehyde aminotransferase
COG0002 E N-acetyl-gamma-glutamylphosphate reductase
COG0003 P Anion-transporting ATPase, ArsA/GET3 family
COG0004 P Ammonia channel protein AmtB
cog2003-2014.csv 文件保存了蛋白和COG的对应关系,示例如下
333894695,Alteromonas_SN2_uid67349,333894695,427,1,427,COG0001,0,
第一列编号为蛋白质的GI号。
prot2003-2014.fa.gz 保存了fasta格式的蛋白序列,示例如下
>gi|118430838|ref|NP_146899.2| putative mercury ion binding protein[Aeropyrum pernix K1]
MIIFKRHSQAILFSHNKQEKALLGIEGMHCEGCAIAIETALKNVKGIIDTKVNYSRGSAI
VTFDDTLVSINDILEHYIFKVPSNYRAKLVSFIS
通过比对COG数据库,可以确定蛋白质的功能。
感谢各位的阅读!关于“COG数据库有什么用”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
亿速云「云数据库 MySQL」免部署即开即用,比自行安装部署数据库高出1倍以上的性能,双节点冗余防止单节点故障,数据自动定期备份随时恢复。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4580290/blog/4620804