三、数据管理
DNA微阵列的应用,产生了大量的基因表达数据,现在有许多存储这些数据的数据库,通常与发表的论文结合起来,提供后来的研究者比较全面的信息。这些数据的共享、发布和再利用成为目前重要的研究内容。一些知名的研究机构如NCBI,EBI等正在试图建立新的标准,建立一些公共的知识库,如美国NCBI的Gene Expression Omnibus (GEO),英国EBI的ArrayExpress,日本DNA数据银行开发的基因表达库CIBEX。目前有一些比较有名的基因表达数据库:
ArrayExpress:
由EBI研究和开发。是基于基因表达数据的微阵列公共知识库。支持MGED(microarray gene expression data)组开发的MIAME(the minimum information about a microarray experiment)的各种技术指标。目的主要存储被很好注释的数据。ArrayExpress基于MAGE-OM对象模型,用Oracle实现,当前包含多个基因表达数据集和与实验相关的原始图像集。
ArrayExpress数据库接受MAGE-ML格式的数据递交或者通过MIAMExpress的基于Web的数据注释和递交工具。ArrayExpress提供一个简单的基于Web的数据查询界面,并直接与Expession Profiler数据分析工具相连,可以进行表达数据聚类和其它类型的直接通过Web的数据发掘。将进一步开发多个实验和数据库间的交叉查询。ArrayExpress数据库中的数据将与所有相关的由EBI维护的或再线的数据库相联接。
Gene Expression Omnibus
为了支持基因表达数据公共使用和分发,NCBI启动了GEO项目。GEO是一个基因表达和杂交阵列数据仓库,同时作为获取来自不同有机体的基因表达数据的在线资源。到2002年7月9日,数据仓库中包含内容:Platforms:99个(114M),
Samples 2170(1706M),Serials 61。Platform关于物理反应物的信息,平台类型如核酸、抗体和组织阵列和SAGE数据等的基因表达数据被接受、增加和归档作为公共数据集。Series是关于样本集的信息,样本间的相关和组织。
Stanford Microarray Database(SMD)
SMD存储微阵列实验的原始和归一化数据和对应的图像文件。另外,SMD提供数据获取、分析和可视化的界面。自从2002年1月1日,到6月3日,新增加789个新的阵列。达到总数2375个。45篇不同的论文。
3D-基因表达数据库(http://www.univie.ac.at/GeneEMAC/)保存胚胎基因表达模式的三维模型和相关的使用GeneMAC方法根据系列组织学部分重建的形态学结构。
ArrayDB
软件包,提供交互式用户界面挖掘和分析微阵列基因表达数据,所有的分析表达数据来自微阵列实验。
BodyMap(http://bodymap.ims.u-tokyo.ac.jp/)
人和老鼠基因的表达数据银行,在不同组织或细胞类型和不同时间。
Chip DB(http://staffa.wi.mit.edu/chipdb/public/)
可以根据基因分类、菌株、样本和实验查询。
ExpressDB(http://twod.med.harvard.edu/ExpressDB/)
是关系型数据库包含酵母和大肠杆菌RNA表达数据,2000年10月,包含20m条来自众多出版物和内部研究的信息。
GXD(the gene expression database)
(http://www.informatics.jax.org/mgihome/GXD/aboutGXD.shtml )
老鼠的基因表达数据
HuGE Index(Human Gene Expression Index)
(http://www.hugeindex.org/welcome/index.html)
目的是提供全面的数据库来理解人类基因在正常组织中的表达,现有19个组织59个样本的数据库
Yale Microarray Database (YMD)
多个实验室和研究中心的合作项目,包括微阵列图像的归档和通过查询语句查找,伴随着成百上千不同研究者的数据分析。
目前有几个因素阻碍了微阵列数据的广泛使用:
1、这是一个年轻的领域,仅仅是在最近才意识到需要识别数据的重要方面,以获取更多的信息。
2、基因表达数据比序列数据要复杂的多,仅仅在有具体的关于实验条件的描述时才是有意义的。与有机体的基因组相比,由细胞类型乘以环境条件一样多的转录本。
3、比较基因表达数据是相当困难的,因为目前,微阵列并不是在任何客观的个体上测量基因表达水平。事实上,大多数测量报告的仅仅是基因表达的相对变化,使用一个罕见标准化的参考样本。
4、不同的微阵列平台和实验设计以不同的格式和单位产生数据,用不同的方式归一化,所有这些使的这些数据的比较和集成是一种错误倾向的练习。

