与HGP相关的生物信息学研究
HGP目的之一,就是找到人类基因组中的所有基因。除功能克隆和定位克隆策略之外,生物信息学为分子生物学家提供了一条寻找和研究新基因的新思路,即从高度自动化的实验出发,经过数据的获取与处理、序列片段的拼接、可能基因的寻找、基因功能的预测一直到基因的分子进化研究。这个过程的每一个环节,都是生物信息学研究的重要内容。
高度自动化的实验数据的获得、加工和整理如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息,是生物信息学的一个重要课题。这种转化大量地体现在各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制,完成高度自动化的实验过程。从事大规模EST测序和DNA物理图谱构建的实验室都已建立起高度自动化的机器人系统来完成大部分的实验工作。
伴随着实验过程的高度自动化甚至工厂化,从事大规模分子生物学项目的实验室,每天需要存储的数据可以轻易地超过几千兆字节。这样大的数据量必须用专门的实验室数据管理系统进行处理,以自动完成包括实验进程和数据的记录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输人数据库在内的各项工作。由于不同实验室需处理的数据类型各不相同,目前各个实验室都是各自开发自己的系统,还没有成熟的可用于不同实验室的分子生物学数据管理系统。但随着测序逐渐成为实验室的常规工作,对这种系统的需求会越来越大,此类系统的发展将成为大势所趋。
序列片段的拼接
目前DNA自动测序仪每个反应只能测序500bP左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自动而高速地拼接序列的算法,即根据Lander-Waterman模型利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。这种技术不仅避免了亚克隆排序所需的大量繁琐的工作,还使序列具有一定的冗余性以保证序列中每个碱基的准确性。序列拼接算法的进一步发展,需要在以下方面进行改进:1将已知的基因组知识应用与拼接算法,以进一步提高拼接真核基因组的有效性。2自动处理自动测序造成的差错,特别是对差错倾向的EST顺序更是如此。
基因区域的预测
在完成序列的拼接后,我们得到的是很长的DNA序列,甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因,下一步就是将基因区域从这些长序列中找出来。
所谓基因区域的预测,一般是指预测DNA顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识,预测出可能的完整基因。
基因功能预测
序列同源比较;同源比较的发展方向;寻找蛋白质家族保守顺序;蛋白质结构的预测。
分子进化的研究
通过上述种种方法我们可以预测出一个新基因的可能具有的功能。然而预测新基因只是生物信息学研究的一个方面,这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说,一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。这种研究已逐步形成一个称为比较基因组学的新学科。从各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的研究。
生物信息学的发展展望
作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中强有力的必不可少的研究手段。
在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。许多科研单位已经开始或准备开始从事这方面的研究工作。北京大学研究建立起一个EMBL的镜像数据库(即完整地将EMBL的数据库移植过来),并提供部分的检索服务。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。
生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。
在克隆新基因的思路方面,我们觉得我国不应该照搬国外克隆新基因所用的方法,而应该走生物信息学和定位克隆相结合的道路。具体地说就是一方面进行各种遗传疾病家系的采集,从家系分析入手,寻找致病基因在染色体上的位置,然后对这个区域进行测序,再利用生物信息学的手段预测候选基因和它的功能并用实验加以证实;另一方面直接从现有公共数据库中的EST出发,用生物信息学的方法寻找可能有研究价值的新基因,并用实验方法来研究证实。我们认为这种双管齐下克隆新基因的方法可能更适合我国人类基因组研究在财力、物力和研究人才资源等方面的客观条件。
所以与其与美国等发达国家拼资金拼技术,不如充分利用我国丰富的家系资源和公共中的免费资源,将有限的资金用在具有明确科学、经济和社会效益的研究方向。
在生物信息系统的构建方面,应该避免重复投资。国家应当集中创建一两个具有一定规模的生物信息中心,建立面向全国的生物学数据库检索和数据分析系统。相信在HGP和即将开始的中国人基因组研究计划中,生物信息学将发挥越来越大的作用,并推动生物学进入一个全新的境界。
