论文部分内容阅读
微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。目前,各种不同的数据挖掘方法被应用于微阵列数据的分析研究,以揭示潜在的基因表达模式,对基因和样本进行分类研究和解释。聚类分析能将功能相关的基因按照表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。由于微阵列基因表达数据具有维数高、样本小、非线性的特点,本文从基因和样本两个方面对其进行了分析,包括对基因功能的聚类分析以及肿瘤分型、分类的研究。取得的主要研究成果如下:1.基因表达的改变往往伴随着基因功能的改变,通过聚类分析基因表达谱,可以找到协同表达基因及其规律,同时发现未知功能的基因。本文从基因变化的趋势出发,构造了新的模糊相似关系矩阵,提出了改进的基于模糊相似关系的聚类算法,并以此算法计算模糊C均值(Fuzzy C Means,FCM)的初始聚类中心来对基因表达谱进行聚类分析,实验结果表明该算法不仅克服了FCM算法对初值敏感的缺点,而且能够发现一些表达模式变化趋势相似的共调控基因。2.对样本聚类可以发现未知的疾病亚型。由于在实验过程中,会引入大量的噪声,因此在进行聚类分析前需要先对基因表达谱数据进行降噪处理。本文是在小波去噪的基础上,将改进的FCM算法模型用于白血病基因表达谱样本分型。聚类结果表明:该方法能得到高准确度的样本分型结果。3.由于基因表达数据维数高、样本少,使得聚类效率较低,聚类准确度也相对较小。本文从降维的角度考虑,提出了基于代表熵的双向聚类算法。该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。然后根据代表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。最后采用FCM聚类算法对挑选出的特征基因集进行样本分型。将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。