当一个基因组的全序列测定之后,确定其含有的ORF就成为了主要任务,称为基因注释。目前用于基因注释的方法还有较高的出错率,尤其对于那些存在不连续基因(即在一个基因内插有非编码的核苷酸序列)的复杂基因组,出错的问题更为突出。此外,这些ORF是否与蛋白质存在一一对应关系也是一个问题。一方面,人们已经发现有许多“假基因”(pseudogene)的存在,这些假基因有和真基因相同的ORF,但却从不表达。另一方面,由于存在RNA水平上遗传信息的加工——mRNA编辑(RNA editing),以及蛋白质水平上遗传信息的加工——蛋白质剪接(protein splicing),许多蛋白质很难找到直接对应的ORF。如果我们不能确定基因组的“所有”基因,我们从何知道蛋白质组的“全部”蛋白质?
显然,确定基因数目最可靠的方法是通过研究蛋白质组来进行。据最新统计,人类基因组拥有的基因数目大约是在3万到4万个之间。如果能够把人体252种细胞内的全部蛋白质都给鉴定出来,那么我们就有可能真正知道人类基因组的所有基因。但是这样一来,基因组和蛋白质组形成了“循环定义”:蛋白质组是以基因组拥有的所有基因的表达产物来构成,而所有基因的确定又必须通过蛋白质组来给予肯定。可见,要找出一个生物体基因组的所有基因和相应的全部蛋白质,是一项非常困难的任务。
没有标尺的度量
不同生物的基因组大小有着很大的差别。例如芽殖酵母基因组有1200万碱基对,而人类基因组则为32亿碱基对。基因组不论大小,其核苷酸的数量总是很明确的。然而,对蛋白质组来说,蛋白质的种类究竟有多少就很难说了。上面说过,蛋白质组可以被定义为基因组的基因表达的所有蛋白质,但这一定义没有考虑蛋白质的化学修饰。细胞内的大部分蛋白质通常在合成结束后,都被进行过化学基团的修饰,如磷酸化、糖基化、酰基化等等。修饰过的蛋白质的物理化学性质和生物学功能,均不同于未修饰的蛋白质。如果把一个修饰蛋白视为一种新的蛋白质,那么蛋白质组的蛋白质数量,将远远大于相应的基因组的基因数量。在这个意义上,人们估计人类蛋白质组的蛋白质种类大约在20万到200万之间。显而易见,蛋白质组蛋白质数量的估计是非常模糊的。
从蛋白质修饰的角度来看,不仅仅是蛋白质种类大大增加,更重要的是,由于不存在度量修饰蛋白质种类的尺度,人们也许永远不能像确定基因组核苷酸序列那样,准确地统计出生物体内蛋白质组的蛋白质总数。如果说表达产生的蛋白质种类可以根据基因的数目来确定,那么修饰形成的蛋白质种类只有依靠对蛋白质的直接研究来判定。生命是一个永远处于变化中的开放系统。既然蛋白质的修饰和生命活动密切相关,因而这种研究是没有止境的。从这种意义上来说,对基因组核苷酸序列的测定是一种“有限”的工作,而对蛋白质组蛋白质种类的确定则是一种“无限”的工作。
四维尺度下的研究
DNA作为遗传信息的载体,以双螺旋的形式存在于细胞核内,在细胞一代代的繁衍过程中其碱基序列始终保持不变,因此在测定基因组的DNA序列时不需要考虑时空的影响。而在蛋白质组的研究中,时间和空间的影响都是不可忽略的。


