现在割裂基因的原始形式是怎样的呢? 目前有两种模型,“内含子占先(Introns early)”模型支持内含子总是基因的整体部分。认为基因起始于割裂的结构,没有内含子的基因是在进化过程中丢失的。“内含子滞后(Introns late)”模型认为原始蛋白质编码单位由非割裂的DNA 序列组成,内含子是随后插入进去的。
检验这些模型的方法是明确真核和原核基因的区别,是否等同于真核基因中内含子的获得或者原核基因中内含子的丢失。
内含子占先模型表明,基因的镶嵌结构是基因重组从而产生新蛋白质的一种原始方法。试想,早期细胞有许多不同的蛋白质编码区域,其进化的一个方面很可能是不同多肽链单位重新组合和并列,从而产生新的蛋白质。
如果蛋白质编码单位必须是连续的密码子序列,重新创造这种序列将需要精确的DNA重组,从而使两个蛋白质编码单位并列,以同样的读码框头尾相接。并且,如果这种重组没有成功,却失去了原始的蛋白质编码单位,细胞必然受到破坏。
但是如果DNA 重组能将两个蛋白质编码单元置于一个转录单位中,剪接模式将在RNA水平上获得突破,从而将两种蛋白质放在一条多肽链中。而且如果重组并不成功,原始的蛋白质编码单位仍能被应用。这种方法必然使细胞尝试限制RNA 删除,而不至于在此过程中引起DNA 稳定性破坏。
如果现在的蛋白质通过组合本来就分离的原始蛋白质来进化,单元增长很可能在随后的一段时间内发生,每次增加一个外显子。放置在一起的基因,可以从它们的结构中判断其不同功能吗?换言之,我们能够将当前蛋白质与个别外显子等同起来吗?
某些情况下,基因结构与蛋白质之间有明显的关系。一个很好的例子是免疫球蛋白,它是由每一个外显子与已知的蛋白功能区域相对应的基因编码的。免疫球蛋白是两条轻链和两条重链组成的四聚体,它们一起产生了具有几个不同区域的蛋白质。轻链和重链的结构不同,并且有几种类型的重链。每一类型的链都是由一系列的外显子表达的,外显子与蛋白质的结构域相一致。
有很多基因的外显子能够被确认有特定的功能。在分泌蛋白质中,第一个外显子编码多肽的N 端结构域,能够识别跨膜分泌中涉及的信号序列,如胰岛素基因。
有时基因进化涉及外显子的复制,从而在蛋白质中产生整体复制的序列。例如,鸡胶原蛋白质的54bp 外显子被多次复制,产生一系列54bp 或其整数倍的外显子。
只有少部分相关基因间相同的序列可能代表外显子,这些外显子可在基因间转移或重新集结(Recruit)。例如人类膜低浓度脂蛋白(Plasma low density liproptein,LDL)受体和其他蛋白质的关系(图2.30)。LDL 受体基因中有一系列的外显子,它们与表皮生长因子(Epidermal growth factor,EGF)前体基因外显子相关。在蛋白质的N端,一系列外显子编码与血液中C9 补体(Complement factor)相关的序列。因此LDL 受体基因是由广泛的功能单元重组而获得,这些单元也在其它蛋白质中使用。
在已知基因中,外显子和蛋白质的关系有时是不稳定的。有些情况下具有明确的1:1关系,但在其他情况下则未发现固定的模式。一种可能是内含子移除是与两端相邻的外显子是融合的。这就意味着这些内含子必须精确地移开,不改变编码区的完整性。另一种方式是某些内含子由插入连续的区域产生,但是携带的内含子还具有被剪切掉的能力。
外显子一般都很小,能够形成稳定折叠结构的最小多肽大约是20-40 个氨基酸残基。很有可能蛋白质原本就是由这样小的结构单元组合而成。每个单元不需要与当前功能相关,或许几个单元一起产生一种功能。一般而言,基因中外显子的数量随着蛋白质长度的增加而增加,这与蛋白质通过连续增加适当的单元获得多种功能的观点一致。这个观点能够说明蛋白质结构的另一个特点:代表外显子-内含子边界的位点通常位于蛋白质的表面。随着编码单元被加入到蛋白质中,连接物,至少是最新加入的单元,很可能位于蛋白质表面。
保守进化的一个有趣例子是珠蛋白,每个基因有三个外显子。两个内含子位于与编码区相邻的稳定位点上。中间的外显子代表珠蛋白链的血红素-结合域,α-和β-珠蛋白具有相似的结构。
解释这种结构的另一种观点可由与珠蛋白相关的其他两种蛋白质提供。肌球蛋白(Myoglobin)是动物中结合氧的蛋白质单体,它的氨基酸序列揭示了珠蛋白亚基的一个普遍(但是古老)的起源。豆血红蛋白(Leghemoglobin)是豆科植物中氧-结合蛋白质,同肌球蛋白一样也是单体。它们与其他血红素结合蛋白具有共同的起源。珠蛋白、肌球蛋白和豆血红蛋白一起组成了珠蛋白超家族(Super family)——从同一个远古祖先遗传下来的基因家族。肌球蛋白由人类基因组中单个基因编码,其结构与珠蛋白基因是一致的。三外显子结构说明了肌球蛋白和珠蛋白功能分离的进化。
[1] [2] 下一页