基因的聚类分析方法根据不同的描述包括:层次式与非层次式(k-means);分解法、合成法;有师(使用现有的生物学知识,关于功能相关的特定基因指导分类算法)、无师分析方法等。聚类分析技术非常有用,应该关注不同的算法、不同的归一化或者不同的距离矩阵,将把不同的目标放在不同的类中,此外,不相关数据的聚类仍将产生类,虽然他们没有生物学意义。因此基因表达分析方法的挑战是针对特定的数据应用适当的方法,使数据明显的分开。主要的无师聚类分析方法有层次式聚类法[Eisen,1998]、自组织神经网络[Tamayo,1999] 、k平均法、模糊聚类法等,有师分类包括矢量学习机法[Brown,2000]等,此外还有主元分析法和利用统计学的SAM法等。
1、层次式聚类法(hierarchical clustering method)
这是多元统计分析中常用聚类方法,对于n个样本构成的n个矢量,看作是n个类,先计算所有两类之间的相似性关系,将相似关系最近的两类生成一个新类,继续以上过程,直到最后只有一个类为止。在这个过程中每次形成一个新类,类的数目间减少一个,最后形成一棵树,反映样本之间的相似关系。在计算新类与其它类的相似关系时有不同的方法,有最小距离法、最大距离法、平均距离法、重心法、离差平方和法等。如最小距离法是将组成新类的两个类分别与第三个类相似关系最近的值为新类和第三个类之间的相似关系。该类方法可以直观的反映基因之间的关系,而且计算速度快,但使用不同的类间距离计算法会产生不同的聚类结果,而且对于一个样本被分类后,就不能再参与分类,因此它不能将所有的数据作为一个整体进行分析,是一个局部决策的方法。同时当样本集非常大时,树型结果非常复杂,树的剪枝和类的确定比较模糊。最简单、结果可视。是用于分析基因表达数据用得最多的方法,它是一种合成分析的方法,单个基因被连接形成组,继续直到形成单棵层次树。对于基因表达数据,平均连接聚类给出可接受的结果。主要问题是随着类数目的增加,表达某一类的表达矢量也许不再表示类种的任何成员。此外,与最初的基因顺序有关。
2、自组织神经网络法(SOM,self-organizing map)
自组织映射是Kohonen,T提出的类似大脑思维的一种人工神经网络方法,是一种竞争学习算法,可以被看作是一种将N维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。SOM采用无教师学习训练,训练完成后,分类信息存储在权值向量中,具有与权值向量相似的输入向量将分为一类。包括1维和2维SOM,2维SOM也称为KFM(Kohonen Feature Mapping)。它们的区别在于KFM考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。聚类结果与k平均法相仿,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,缺点在于必须实现设定类的数目与学习参数,而且学习时间较长。
3、模糊聚类法(Fuzzy Clustering method)
模糊聚类是模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的不确定程度[15],从而建立起样本对于类别的不确定性的描述,准确反映样本之间的关系。模糊聚类分析方法的基本原理是将模糊数学中的有关概念与方法引进聚类分析,通过建立模糊相似关系来生成模糊等价关系,进而产生不同的水平截集,得到对样本的动态聚类结果。由于动态聚类图的建立,可以方便的获取有明显特征的类,并能看到类的扩展,清楚地反映了类之间的关系,这样就克服了k平均法和自组织神经网络法必须事先确定类数目的缺点;同时对于每个λ值,所有的基因都重新参与分类,所以模糊聚类分析方法具有全局性,这是层次聚类法所不具有的。
4、k-平均法
它先将样本分成若干类,然后计算每类的中心矢量(每类样本的平均值),对于所有的样本重新计算与各类中心矢量的距离,然后根据距离调整分类,得到新的聚类中心,再次重复该过程,直到能满足一定条件为止。它是层次聚类法的很好的替代,其分类结果与SOM的聚类结果接近。主要问题是在聚类开始时必须指定类的数目。
5、主元分析法PCA(also called singular value decomposition)
主要思路是减少矢量的维数而不损失用于分类的信息。属于多元统计分析中一种常用的方法,它通过矩阵转换,有效的将对能对分类提供主要信息的参数提取出来,从而便于分析。
6、SVM(Support vector machine)方法
是机器学习的一种方法,它的最大的优点是用小样本可以将样本集分成若干类,但它需要一个学习的过程,通过学习确定核心机函数。
7、SAM(Significance Analysis of Microarrays)方法:
聚类分析虽然能发现一致的基因表达模式,但不能提供统计显著性的信息,用SAM方法来研究那一些基因会在用于癌症病人的致电离辐射疗法中产生副作用。这个问题是,每一次细微改变分析方法,得到不同的基因,使用一个非常低的辐射剂量,需要挑选出真正细小的变化。来自微阵列数据分析的最大的困难是确定哪一个结果是显著性的。SAM通过降低错误率和揭示哪一个基因被辐射影响解决了这个问题。

