论文部分内容阅读
生物信息学的快速发展对数据挖掘技术提出了新的挑战。本文详细介绍了数据挖掘技术中的聚类技术,分析了其特点,并对聚类结果的评价方法进行了讨论以及这些方法在微阵列数据分析中的应用。针对模糊聚类算法,提出了动态模糊聚类算法,通过计算样本之间的模糊相似矩阵,求得模糊等价矩阵R,不失真的反映它们之间的内在关联.将模糊等价矩阵R中的元素降序排列,其集合记为λ={λ1,λ2,…,λk},按照不同的λ的取值进行聚类,利用DVIndex和Intra-Inter-ValidityIndex来计算评价每个聚类的有效值。根据每个不同聚类的有效值,可以判断出最优的聚类数目,得到较好的聚类结果。该方法克服了其它模糊聚类方法不能够判断最优聚类数目的问题,试验证明此方法对聚类数目具有很好的估计。先后用人工数据和Iris数据进行检验,针对经典白血病(Leukaemia)及Colon微阵列数据集进行聚类,取得的了很好的效果,与k-means方法进行对比研究,发现该方法优于k-means方法。最后将这个模糊聚类分析的代码实现到R统计软件包中,创建了“fuzzycluster”程序包。