
展望基因组学研究的未来,首先需要回顾我们经历过的不寻常的历程。图1所示的螺旋展示了遗传学和基因组学重要进展的里程碑,从孟德尔遗传法则的发现和其在20世纪初被重新发现[1]开始。DNA被确立是遗传的物质基础 [2]、DNA结构的确定[3]、遗传代码的阐明[4]、DNA重组技术的发展[5,6]、以及自动化程度日益提高的DNA测序技术的建立[7-10],为1990年启动人类基因组计划(HGP)奠定了基础(可见www.nature.com/nature/DNA50)。得益于这一计划的最初设计者的远见,以及全力投入这一计划的大批天才科学家的创造性和决心,所有HGP目标的实现都比原定日期至少提前了两年,一次生物学研究的革命已经开始。
这个项目的新研究战略和实验技术源源不断地产生了日益庞大及复杂的基因组数据,这些数据已被载入公共数据库,并改变了对几乎所有生命过程的研究。从基因组研究角度出发的技术开发的发展和公共资源数据体系的大规模建立,为生物学和生物医学研究引入了重要的新方向。遗传学、比较基因组学、高通量生物化学和生物信息学的交织进展,为生物学家提供了一系列显著进步的研究工具,可以使生物体在健康和疾病中的功能在前所未有的分子细节上得到详尽的分析和理解。基因组序列这一指导生物发育和发挥功能的信息综合体,是当今生命科学革命的核心。简单来讲,基因组学已经成为生物医学研究的核心和不可分割的学科。
这个新领域的出现所带来的现实后果是非常明显的。鉴定人类孟德尔遗传疾病的致病基因,曾经是一个繁复的任务,需要一个庞大的研究团队多年的努力工作,还可能无法得到确定的结果;现在只需一个研究生几周的常规工作就能完成,只要有DNA样品和相应表型,连接因特网的公共基因组数据库,一个PCR仪和一台DNA测序仪即可。有了最新公布的小鼠基因组[11]的全序列草图,鉴定导致大量小鼠表型的基因突变就同样变得非常简单了。对人和小鼠的全基因序列的比较表明,哺乳动物基因组中承受进化选择压力的部分是以前预期的两倍多。
我们探索基因组功能的能力随着随后每一个基因组测序的完成而日益细化。基因芯片技术使许多实验室从以前的一个月内完成一、两个基因的表达研究,飞跃到现在一个下午可完成成千上万个基因的表达谱[12]。临床上基于基因的疾病早期诊断和药物不良反应鉴定不断涌现,基因组学在治疗领域的极大希望已经在商业领域引来了一个激动人心的扩展和开发阶段 [13]。人类基因组计划在研究这些科学成就的伦理、法律、社会问题上的投资也造就了一批卓越的伦理、法律、社会科学、临床研究、神学和公共政策学者,同时显著增强了公众对这一领域的关注,并针对类似于遗传歧视等滥用情况引入了初步的(虽然仍不完善)防范机制(见www.genome.gov/PolicyEthics)。
这些成果完成了1988年国家研究委员会(National Research Councils)上在"人类基因组的构建和测序(Mapping and Sequencing the Human Genome)"报告中的宏伟构想。今年人类基因组计划的成功完成提供了前瞻并绘制未来数年内基因组学研究蓝图的良机。
这篇展望描述了一个与1990、1993、1998年公布的早期计划所反映的完全不同的世界(参考文献15-17)。那些文章里针对1988年报告的目标,明确了基因组分析技术发展方向、基因组物理和遗传图谱构建、模式生物体全基因组序列测定、以及最终人类基因组序列测定的详细途径。现在,在成功地实现了这些目标后,我们提出了更为广阔、也更具雄心、适应于基因组学时代真正开始的展望。我们面临的挑战是利用人类基因组计划的巨大潜力去改善人类的健康状况并使人类更好地生存。
阐述这个新展望是一个探索造福人类健康崭新途径的机会。虽然基于基因组的分析方法正在快速渗透到生物医学研究领域,但建立从基因组学信息到人类健康改善的有效途径的挑战仍然十分巨大。当前应对这一挑战的努力主要集中在对特殊疾病的研究,例如美国国立卫生研究院(National Institutes of Health, NIH)下的专门研究疾病的研究所和许多支持医学研究的其他国家或国际的政府和慈善组织的使命。国家人类基因组研究所(The National Human Genome Research Institute, NHGRI),从NIH的预算角度来看是NIH一个相对小的成员(不到2%),将和所有这些组织紧密合作,探索和支持这些生物医学研究能力。另外,NHGRI在这些院内、院外项目中将扮演更直接的作用,将基因组序列信息应用到人类健康的改善中。
NHGRI应对这一挑战拥有两大独特的优势。首先,它和一个在过去13年里为带来基因组学革命起直接作用的科学团体有着紧密的联系,他们对基因组学可能改变生物医学的研究非常熟悉。其次,NHGRI长期的使命是研究基因组学可能具有的最广泛意义,使从基因组科学新视角来探究人类健康和疾病各个方面的独特灵活性成为可能。通过使有活力和跨学科的基因组学研究团体更直接地参与与健康相关的研究、通过开拓NHGRI在人类生物学各领域的能力,本研究所寻求直接参与将人类基因组计划带来的希望用于改善人类健康的工作中。
要完全实现这一目标,NHGRI还必须继续大力支持其另一重大使命-将它的科研项目与对新遗传技术和信息的日益普及所带来的社会影响的研究结合起来。将人类基因组计划的成功转化为医学领域的进步加强了人类社会各方面确保最大效益和最低损害之积极努力的需求。
1. 基因组学研究的三个主题
此文所述的基因组研究展望来自上百位科学家和社会公众,举行了十几场讨论会和无数的与个人之间的探讨,历经近两年的热烈讨论。对基因组研究的展望分为三个主题-基因组学与生物学,基因组学与健康,基因组学与社会-和六个横切面。
这三个主题就像一个建筑的三个楼层,建立在人类基因组计划的坚实基础上(图2)。针对每个主题,我们都像David Hilbert在十九世纪末叶提出的数学提议一样[18],列出了一系列的重大挑战。这些重大挑战是科学研究团体大胆的、雄心勃勃的研究目标。其中有的可以列出特定的时间表来解决,另一些还不能设定精确的时间。我们根据逻辑性来排列这些重大挑战,并不代表它们的优先序列。这些挑战涉及范围很广,有些可以由NHGRI单独实现,但其它的需要与其它组织进行良好的合作。下面,我们阐述NHGRI准备起领导性作用的领域。

图2. 基因组学的未来建立在人类基因组计划的基础上
基因组学研究的三大主题及相关的六个横切面
三个主题-基因组学与生物学,基因组学与健康,基因组学与社会
六个横切面:Box1-资源 Box4-培训
Box2-技术发展 Box5-伦理、法律和社会应用(ELSI)
Box3-计算生物学 Box6-教育
关于六个横切面的注解见文章最后部分
六个重要横切面与所有三个主题相关。它们是:资源、技术发展、计算生物学、培训、伦理、法律和社会应用(ELSI)以及教育。我们还须强调及早地、不受限制地调用基因组数据对于最大程度地谋取公众利益的重要性。最后,我们提出了一系列的"量子飞跃",可以为基因组学研究及其在医疗方面的应用带来实质进展。某些想法看来似乎太大胆,但是无需突破物理规律来实现这些设想。这些飞跃可能具有深远的启迪作用,就象20世纪80年代中期关于人类基因组全序列的梦想,而这些梦想现在已经实现了大量值得庆贺的成就。
1.1 主题I. 基因组学与生物学:阐明基因组的结构和功能
现在广泛公布的人类以及一系列其他生物体的基因组序列为我们描绘出了最基础的生物学以及生物医学信息。这些仍然很难破译的密码包含了细胞的结构和功能的的全部遗传指令信息,而这一信息又是揭开生物系统复杂性所必需的。阐明基因组的结构以及确定大量编码元素的功能可以建立基因组学与生物学的联系,从而加速我们对所有生命科学领域的探索。
因此,我们需要新的概念和技术用来:
o 发展一种全面的、易于理解的人类基因组的编码目录
o 明确基因编码的产物如何共同作用行使细胞和组织功能
o 理解基因组如何改变和承担新功能
重大挑战I-1 全面鉴定人类基因组所编码的结构和功能成分
虽然DNA结构相对简单并在化学角度上已经得到了相当深入的了解,但是人类基因组的结构是极其复杂的,而且对其功能的理解还很少。只有1-2%的碱基编码蛋白质产物,而且编码蛋白的全套序列还没有确定[7]。数量与之基本相当的基因组非编码区在进化选择中也是十分活跃的[11],说明它们也具有重要的功能,但是我们对它们的了解却少得可怜。它们可能包含了控制大约30,000个蛋白质编码基因的大量表达调控信息,以及无数个其他功能元素,例如非蛋白质编码基因、决定染色体动力学特征的序列等。基因组中有将近一半的高度重复的序列区以及其他非编码、非重复DNA序列区,有关它们的功能我们所知道的就更少。
基因组学下一阶段的任务就是分类、描述和理解人类和其他生物体基因组中的整套功能单元。编辑这一基因组的"部件系列表"是一个巨大的挑战。众所周知的功能单元,如编码蛋白的序列,还仍然不能仅从基因序列这一单一的信息准确预测出来。而其他一些已知的功能序列,如基因调控因子,就更鲜为人知;不可否认,还会有新的功能单元被发现,所以我们必须做好准备来研究DNA序列发挥功能的新的(也许是意外的)途径。同样,我们需要更好地了解基因外部的变化(例如,甲基化和染色质重塑等),以此来理解DNA编码信息的全部方式。
对进化上不同的物种进行基因组序列的比对,是鉴别出重要的遗传因子的强有力工具。对现有的几种脊椎动物基因组序列的初步分析就发现了许多以前未被发现的蛋白质编码序列区[7,11,19]。哺乳动物之间的序列比对揭示了非编码区内的大量同源现象[11],而这些区域基本上不能从功能角度上定义。不同物种序列的进一步比对,尤其是那些占据独特进化位置的物种间的比对,会极大地促进我们对保守序列作用的理解[28]。因此,其他几个具有代表性的物种的基因组序列测定对于了解人类基因组的结构和功能至关重要(Box1)。随着更先进的测序技术的出现,测序费用大幅下降,更加有利于产生上述庞大的序列数据。而研究物种内序列的变化对于确定一些序列的功能也十分重要(见重大挑战1-3)。
要有效地鉴别和分析功能基因的组分,需要日益强大的计算能力,包括分析日益增长和愈趋复杂的数据的新方法,以及适当有力、稳定的计算机环境实现这些数据的存储、访问和分析(Box3)。同时,研究者必须日益熟练地处理这些珍贵的新信息(Box4)。当我们能够对基因组功能有了一个更好的理解时,将会有更新的预测功能单元特征和行为的计算工具出现[21]。
与用计算方法鉴别功能组分相互补的是用高通量方法产生实验数据。其中一个例子是全长cDNA序列的产生(可见www.mgc.nci.nih.gov和www.fruitfly.org.EST/full.shtml)。基因发现项目的内在主要挑战是信使RNA的选择性剪接型和高限制表达方式的实验鉴定和确证。更难的是通过实验鉴定那些不编码蛋白质的功能组分(例如,调控区和非编码RNA序列区)。为了产生必需的实验数据来开发、验证和提高用来检测基因组功能成分的计算方法,就需要采用高通量的方法(Box2)。
由于现有的技术尚不能鉴定出所有的功能组分,我们需要采取阶段性的途径,先开发新的方法,然后在试点规模下检测这些方法,最终用于人类全基因组研究。最近,NHGRI发起了DNA组分总汇(Encyclopedia of DNA Elements,ENCODE)计划来鉴定人类基因组的所有功能组分。在其中一个试点计划中,鉴定所有重要的功能基因组分的系统战略会被进一步发展,并选出1%人类基因进行测试。针对其他已被深入研究的模式生物,如酵母、线虫和果蝇的类似计划也在进行中。所得经验将服务于更广阔的人类基因组的研究。 重大挑战I-2 阐明遗传网络和蛋白质作用路径的组织方式,确定它们如何在细胞和组织表型的形成中起作用。
基因以及基因产物并非是单独起作用的,而是参与在复杂的、相互联系的通路、网络和分子系统中。它们的共同作用产生了细胞、组织、器官和有机体的机理。确认这些系统和他们的特性及相互作用对于理解其生物系统如何运行具有决定性意义。但是这些系统的复杂性要远远高于分子生物学、遗传学或基因学已认识到的范畴。