自从人类基因组计划启动以来,公共媒体不断向大众勾画着一幅幅美丽的图景,使人们认为,一旦科学家把各种生物基因组的全部碱基排列顺序测定清楚,生命的遗传奥秘就会显露无余。但是,真实的图景远不像普通人想象的那样简单。遗传信息并不直接参与生命活动,而是通过控制蛋白质的形成间接地指导有机体的新陈代谢。也就是说,一个基因所含的遗传信息,通过一系列复杂的反应,最终导致了相应的蛋白质形成,蛋白质再参与到生命的各种活动中去。所以,要想真正揭开遗传的奥秘,仅仅了解基因组的碱基排列顺序是很不够的,还必须认识基因的产物——蛋白质。
与基因组研究的战略一样,科学家们已不再局限于对个别蛋白质进行研究,而是对细胞或组织内成千上万的蛋白质同时进行研究,即蛋白质组学(proteomics)。2001年2月15日,英国《自然》周刊在发布人类基因组框架图时,同期登载了一条关于人类蛋白质组研究组织(Human Proteome Organization,HUPO)成立的消息,标题就叫“现在是蛋白质组了”。但科学家们也意识到,蛋白质组研究要比基因组研究复杂得多。
剪不断理还乱的“怪圈”
存在于细胞核里的DNA构成了基因组。基因组作为遗传信息的载体,最根本的特征就是稳定不变。对单细胞生物而言,不论在什么样的生长条件下,其基因组始终保持不变。对多细胞生物来说,每一个个体的基因组,在构成个体的不同种类的细胞里都是一样的,知道了个体内某一细胞内的基因组就知道了该个体所有细胞的基因组。然而对于蛋白质组而言,由于蛋白质是生命活动的主要执行者,不同类型的细胞或同一个细胞在不同的活动状态下,其蛋白质组的蛋白质种类构成却是很不一样的。
所以,蛋白质组与基因组的一个重要差别就是蛋白质组具有多样性。这种差别要求我们对“蛋白质组”的概念要进行仔细的分析。目前蛋白质组比较公认的定义是:一个基因组内所有基因表达的全部蛋白质。这种定义从字面上容易理解,但在实际中却很成问题。
任何一种生物的基因组,都是由不编码蛋白质的核苷酸序列和编码蛋白质的核苷酸序列(基因)所组成。基因通常只是基因组的一小部分,例如编码人类蛋白质的核苷酸序列大约占人类基因组的2%。要想从混杂有大量非编码核苷酸序列的基因组中找出基因,如同沙里淘金。基因组研究的结果表明,一个基因组拥有的“基因”数目是由两部分组成的:通过实验证明确有蛋白质产物的真实基因、根据起始密码和终止密码序列所确定的潜在基因。生物学家们把这两类基因都称为“开放阅读框”(open reading frame,ORF)。因此,一个基因组内的基因数目通常是指ORF的数目。