NRDB
NRDB(非冗余数据库)是由NCBI创建的。该数据库是由Genpept(来源于GenBank CDS自动翻译数据库)、PDB序列数据库、SWISS-PROT数据库、Spupdate(每周更新的SWISS-PROT数据库)、PIR和GenPeptupdate(每天更新的Genpept)数据库复合而成。因此该数据库是一个较完全的,包含最新信息的数据库。但是,严格地来说,这个数据库中包含有冗余的信息,但不包含相同的信息,即在该数据库中已将那些与某一序列相同的序列信息剔除。由于NRDB是通过简单的比较方法生成的,因此就会带来一些问题:例如,一些相同蛋白质的相关重复信息仍然保留在数据库中,在SWISS-PROT数据库中的一些错误序列仍然被引入NRDB数据库,以及众多序列与已存在的序列片段重复等。所以,尽管NRDB数据库被称作非冗余数据库,但其实是名不副实的。另外,NRDB数据库也被作为NCBI提供的BLAST服务的默认数据库。
|
NRDB |
OWL |
MIPSX |
SP+TrEMBL |
|
PDB |
SWISS-PROT |
PIR1-4 |
SWISS-PROT |
|
SWISS-PROT |
PIR |
MIPSOwn |
TrEMBL |
|
PIR |
GenBank |
MIPSTrn |
|
|
GenPept |
NRL-3D |
MIPSH |
|
|
SWISS_PROTupdate |
|
PIRMOD |
|
|
GenPeptupdate |
|
NRL-3D |
|
|
|
|
SWISS-PROT |
|
|
|
|
EMTrans |
|
|
|
|
GBTrans |
|
|
|
|
Kabat |
|
|
|
|
PseqIP |
|
OWL
OWL是一个非冗余的蛋白质序列数据库,现存于Leeds大学,是由Leeds大学和Warrington的Daresbury实验室合作开发的(Bleasby et al., 1994)。OWL数据库是由四个主要的一级序列数据库复合成的:包括SWISS-PROT,PIR1-4,GenBank(CDS 翻译)和NRL-3D。
在合成OWL数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的优先级,SWISS-PROT数据库具有最高的优先权。在对信息的处理上,删除了与某一序列相同序列的信息,也剔除了与某一序列相差单个氨基酸的序列的信息,因此,所得到的OWL数据库是一个紧凑的、高效的序列数据库。尽管如此,OWL数据库仍然有许多与NRDB相同的问题,即在该数据库中仍然有一些错误的序列和对GenBank中不正确序列的重翻译。由于OWL数据库的更新周期是6-8周,因此与其它数据库相比,OWL不是最新的数据库。英国的EMBnet国家节点上提供有针对于OWL的BLAST服务,在SEQNET,UCL上的专家节点也可以找到该地址。
MIPSX
MIPSX是一个由Martinsried的Max-Planck研究所创建的合成数据库(Mewes et al., 1998)。MIPSX包含如下数据库的信息:PIR1-4、MIPS的一级数据库——MIPSOwn、MIPS/PIR一级数据库——PIRMOD、MIPS一级翻译数据库——MIPSTrn、MIPS酵母数据库——MIPSH、NRL-3D、SWISS-PROT、EMTrans——EMBL的自动翻译数据库、GBTrans——翻译的GenBank数据库、Kabat 和 PseqIP。MIPSX数据库按照表3.2中所列的上述数据库的顺序赋予优先级,并将这些数据库中和数据库间的重复序列删除,只保留该序列的一个相关信息。另外,也将那些信息完全包含于其它序列中的序列删除。
SWISS-PROT + TrEMBL
EBI将SWISS-PROT和TrEMBL数据库合并,构成一个较全面的并且只有最低限度冗余的数据库(Bairoch 和 Apweiler, 1998)。与上面所提到的数据库相比,该数据库只有较少的错误,但它还称不上是真正的非冗余的数据库(据1997年年中的估计,其中包含了SWISS-PROT 和 TrEMBL中的30%的重复序列)。为了尽可能地减少错误频率和冗余程度,就需要增加人为的干涉和(或者)在将来发展专家数据库管理系统。可以使用EBI网络服务器上的SRS序列搜索系统来查询SWISS-PROT 和 TrEMBL数据库。
