生物秀首页 新闻前沿 产业资讯 实验技术 仪器教程 生物考研 资源下载 生物人 物秀商城 生物论坛 图片 专业 博客 易生物 视频动画
生命科学实验中心
导航: 生物秀 > 实验 > DNA 实验 > 理论知识 > 正文
  • 倾力提供最优!
基于DNA微阵列的基因表达数据管理和分析
作者:谢建明 来源:生物秀 时间:2006-9-19

    二、数据分析
    数据的分析包括了三个部分:芯片图像处理获得单次实验的基因表达水平;整合多次实验得到基因表达矩阵;根据基因表达矩阵进行知识挖掘。下面简单介绍一下其中涉及的关键技术:包括归一化和聚类分析。
    归一化对于cDNA微阵列技术,包含Cy3和Cy5两个通道,通常存在两个通道荧光亮度不平衡的问题,Cy3的亮度低于Cy5[Quackenbush, 2001]。归一化的目的是平衡实验过程中Cy3与Cy5两个通道的相对荧光亮度。它基于如下的假设:芯片上的所有的基因,一组基因子集或一套外源的控制在标记前产生RNA,其平均表达率等于1。使用归一化因子调整数据,弥补实验的变化,“平衡”待比较的两个样本的荧光信号。主要有3种被广泛使用的技术用于来自同一个芯片杂交的基因表达数据的归一化。
    1、总亮度归一化
    总的亮度归一化数据依赖于假设:两个标记的样本的起始量是一样的,此外,假设一些基因在待检测的样本中相对于控制样本是上调的,另外一些是下调的。对于芯片上成百上千或成千上万的基因,这些变化应该是平衡的,因此,总的与芯片杂交的RNA的量是一样的。因此,芯片上所有的元素计算得到的总的累加亮度在Cy3和Cy5通道上是一样的,在这种假设下,计算归一化因子,并用于芯片上每个基因的亮度比例计算。
    2、用回归技术归一化
    对于起源于相关样本的mRNA,被分析的基因的显著性分数在相似的水平上被表达。在Cy5与Cy3亮度(或对数值)的散点图上,这些基因沿着直线聚类,如果两个样本标记和检测效率是一样的则该斜率将是1。这些数据的归一化等于用回归技术计算它的最合适斜率,调整各基因荧光亮度使计算得到的斜率为1。在许多实验中,亮度是非线性的,使用局部回归技术更合适,例如LOWESS(局部权值散点图平滑)回归。

    3、使用比率统计归一化
    Chen描述的基于比率统计的归一化方法。假设尽管在紧密相关的细胞中,单个基因可以上调或下调,RNA产生的总量与重要的基因近似相等,例如看家基因。基于这种假设,他们发展了一种近似概率密度比率Tk=Rk/Gk(R,G分别代表第k个元素的测量的红/绿亮度比)然后他们用于迭代过程,归一化平均表达率为1,计算可信度阈值用于识别差异表达的基因。
    除了以上三种在应用中被广泛使用的除外,还有一些复杂的、非线性的方法用于归一化。归一化后,每个基因的数据以表达率或表达率的对数报告。应用对数值的优点是理解更简单,如果值大于0,则表示该基因的表达率大于1,反之小于1。
    对于合成寡聚核苷酸微阵列不存在cDNA微阵列荧光不平衡导致的系统歪曲的问题,但是对于相比较的两组实验来说,需要用两块芯片与两个样本杂交两次,产生的原因包括两个样本中mRNA数量的差异或用于标记样本的染料的质量不同,都可能导致错误。在这里归一化的目的也是去除这些错误。
    聚类分析
    通过图1的数据获取过程,可以得到细胞的基因表达矩阵。基因的表达矢量定义为每个基因在表达空间的位置。用基因表达的观点看,每个实验在空间中表达一个隔离的和不同的轴,在该实验中的基因的测量值log2(比率)代表了几何坐标。例如,如果我们有三个实验,对于一个给定的基因在实验1种的log2(比率)值是它的x坐标,在实验2中的值是y坐标,在实验3中的值是z轴,因此,我们能表示所有的信息,一个基因在x-y-z表达空间中用一个点表示。第2个基因,对于每个实验近似相同的值(log2(比率))将在表达空间中空间相近的点表示。不同表达模式的基因将于最初的基因离的较远。对于更多的实验这种推广是直接的(尽管很难画出),表达空间的维度的增加与实验的数目相等。用这种方式,表达数据可以表示为n维表达空间,n是实验的数目,每个基因表达矢量表示为该空间内的单个点。
    有了测量基因间距离的方法后,聚类算法根据在表达空间中的分离度选择基因和将基因分组。需要提及的是如果我们感兴趣聚类实验,我们将每个实验表示为一个实验矢量,包括每个基因的表达值。这里定义的实验空间,维度等于每个实验中分析的基因数目。同样的方法定义距离,我们能够应用任何的聚类方法来分析和分组实验。
    为了解释多个实验分析的结果,直觉的可视化表示是很有帮助的。通常使用的方法依赖于表达矩阵的建立,矩阵的每一列表示单个实验,每一行表示特定基因的表达矢量。根据表达数据用不同的颜色表示矩阵元素建立多个实验的基因表达模式的可视化。表达矩阵有无数的方案来着色和表示。最常用的方法是根据每个实验的log2(比率)值,log2(比率)等于0用黑色,大于零的用红色表示,负数的用绿色表示。对于矩阵中的每一个元素,相对亮度表示了相对表达水平,约亮的元素表示差异表达越大。对于任何特定的实验组,表达矩阵通常没有明显的模式或顺序。设计程序来聚类数据通常重组行、列或两者。当以这种方式可视表示可以看到明显的表达模式。
    在聚类数据前,有两个问题需要考虑:1、数据需要用某种调整方式来增强某一种关系?2、采用何种距离测量来分组相关的基因。在许多微阵列实验中,数据分析被具有最大数据值的变量决定,这样掩盖了其他重要的区别。为了避免这个问题,采用的一种方法是调整或重新确定数值范围,使每个基因的平均表达为0,称之为平均中心法过程。在这个过程中,基因的基本表达水平被每次实验测量值相减。这样增强了每个基因在每个实验中的表达水平的变异,而不考虑基因是否是上调或下调。这种方法对于分析时间过程的实验是特别有用的,可以发现在基础表达水平周围变异相似的基因。这些数据调整为-1~1之间的值。或者每个表达矢量的长度为1。

    上一页  [1] [2] [3] [4] [5] 下一页

关于〖基于DNA微阵列的基因表达数据管理和分析〗的最新评论
昵称:      评分: 1分 2分 3分 4分 5分
内容:
生物秀实验频道
    没有相关实验
设为首页 | 加入收藏 | 关于我们 | 战略伙伴 | 友情链接 | 法律声明 | 广告服务 | 联系我们 | 网站地图
Copyright © 2003-2008 生物秀 (中国·生物秀科技) 版权所有 信产部备案:鲁ICP备05001831号
客服信箱:info@bbioo.com  客服电话:15800302289  客服QQ:254857951
www.bbioo.com All Rights Reserved.