近年来,生物技术的革新产生了大量的各种各样的生物数据,这些大量数据催生了生物信息学学科的产生和发展。这个相对新兴的学科一方面加速了基因组和后基因组数据的分析,另一方面促进了转录组学、蛋白组学、代谢组学和表型组学等相关领域的信息的整合。这种信息的整合可以用来鉴定基因及其产物,可以用来阐明基因型和观测到的表型之间的功能联系。因此,可以用来进行从基因组到表型组的系统分析。随着植物生物技术发展质和量的不断提高,需要生物信息学来整合利用“组学” 扩展了的技术所产生的各种各样的数据。
生物信息学是一门生物学技术和信息学技术融合的学科。不同的人对生物信息学有不同的理解;但是按照其最基本的形式,生物信息学可以定义为“有效的组织生物学信息,进行逻辑化的查询”。
最新的基因组学技术的进步导致了生物学数据量的大爆炸和生物信息学长足的发展,这无论是在植物科学技术领域还是在更广阔的生物医学领域。各种被称作“组学”的技术大大扩展了生物信息学的应用,并且这条原则在生物技术领域已经得到广泛的认可。
现在,生物信息学领域面临的新的挑战:一是要通过“组学”技术平台进行复杂的数据整合,二是通过基因组、转录组、蛋白组和代谢组在传统的遗传学和植物的表型之间建立起直接的联系。如今的研究人员需要的已经不仅仅是给出DNA片断的候选的功能注释或者预测的蛋白结构。生物学需要的是智能的系统来搜索和过滤大规模的复杂的数据类型,对特定的问题进行解释,广泛搜索任何个人都无法完全涉猎的专业研究领域。虽然随着新的 “组学”技术和后基因组技术的兴起,生物信息学扩大了其应用范围,但是它的应用重点仍然是对DNA序列和基因组的分析。
基因组学
现代生物信息学是随着基因组技术的发展而产生的,特别是随着成本不断降低的大规模的序列测定的技术的发展而发展起来的。源于1991年,通过表达序列片断(EST)来高通量发现新基因启动了对大的、易于搜索的序列数据库的需求。虽然在多种农作物中,EST序列依然是基因发现的标准方法,但是DNA测序费用的降低已经使得人们把更多的精力转移到全基因组测序上来。
2000年Arabidopsis Genome发布的拟南芥(Arabidopsis thaliana)全基因组序列是植物基因组学的里程碑。两年以后,水稻公共协会发布了水稻(Oryza sativa L ssp. japonica Nipponbare)的全基因组序列。其他两项相关工作对这项工作做了重要的补充,一项是农业综合性企业Syngenta和Monsanto开展的测序工作,另一项是北京基因组研究所独立开展水稻indica亚种的测序项目。由于水稻和其他重要的农作物有相似的基因组水平,水稻基因组全基因组测序完成已经对植物生物技术学和农作物生物信息学产生了重大的影响。
对于得到的全基因组序列,也就是规模的序列数据,必须用全新的视角来观察,考虑怎样才能更好的组织和解读好这些数据。基因发现项目中遇到的高度冗余的问题,可以通过参考公共序列或者全基因组序列来减少。对于一个特定的农作物,如果还没有它的全基因组序列,可以用相关的亲缘关系近的同线物种的基因组来替代。随着DNA序列数据库的不断增长,生物信息学在容纳这些数据方面始终面临着很大挑战,因此需要不断的降低数据的冗余度。数据分析工具的开发随数据库的发展而发展,使得研究人员能够更全面的注释序列并挖掘复杂的相互关联的数据,从而获得重要的生物学的信息。
数据库
为了存储高速增长的DNA序列信息,需要开发专用的DNA序列数据库。通过GenBank和EMBL的合作,1986年形成了相关的最大DNA序列数据库,次年日本DNA数据库也加入进来。这个超级序列数据库被认为是全世界公共DNA序列的标准仓库,包含超过740万碱基的植物DNA序列。而且,不同公共数据库的合作有利于使用相同的“特征表”格式和相同的标准进行序列的注释。特征表的设计提供了一个可扩展的词汇表来描述特征,它是现在可扩展标记语言(XML)格式的前体,提供了整体数据库的数据结构的标准形式。
