论文部分内容阅读
随着基因芯片技术的广泛应用,产生了海量的基因表达数据。如何分析和处理这些数据,从中提取有用的生物学或医学信息,是基因芯片技术应用的关键和难点。聚类分析能将功能相关的基因按表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控及细胞过程等进行综合研究。本文分析了基因表达数据分析中的常用聚类算法,指出了它们的优势和不足,其中模糊核聚类算法以其模糊性划分数据和处理非线性数据效果好的优点而被广泛应用于基因表达数据的分析。首先,从避免人为初始化聚类参数的角度出发,提出了一种自适应模糊核聚类算法。该方法依靠减法聚类来确定聚类数目的最小上限,并通过有效性函数测量聚类范围上不同类数聚类结果的有效性,选择其中的拐点或极值点作为最佳类数的预测,在算法的迭代过程中也实现了初始聚类中心的预测。利用基因表达数据进行测试,实验结果验证了该方法的有效性和可行性。其次,针对模糊核聚类算法容易忽略含有重要信息的离群基因的问题,提出了一种离群模糊核聚类算法。通过对每一个基因分配一个动态的权值,并在算法迭代中不断更新权值来发现离群基因,改善了聚类效果。利用公式推导证明了该算法具有收敛性。将自适应模糊核算法与离群模糊核聚类算法相结合,提出了一种自适应离群模糊核聚类算法,并利用酵母细胞基因表达数据对算法进行测试,仿真结果表明,该算法无论是在优化精度方面还是在优化效率方面,均较以往提出的模糊核算法在性能上有所提高。最后,设计并实现基因表达数据聚类分析系统,系统主要实现了基因数据的载入、数据的预处理、自适应离群模糊核聚类算法、聚类结果的可视化等功能。系统对基因表达数据进行实验,最终得到的聚类结果所反映的规律符合生物意义。