论文部分内容阅读
在计算机网络化迅猛发展的时代,如何有效、快速地从大量数据中获取人们需要的知识成为许多学者以及研究人员关注的焦点。数据供给能力和数据分析能力间的矛盾日益突出,使得人们迫切需要一种能够对数据进行更高层次的分析和提取的自动化技术——数据挖掘技术。
作为数据挖掘的一个重要分支,聚类分析引起了人们的广泛关注,它既可以作为独立的数据挖掘工具供人们分析大量数据,也可以作为其他数据挖掘算法的数据的预处理。在现实世界中,许多客观事物之间的界限通常是模糊的,对事物进行分类时就必然伴随着模糊性。模糊聚类分析是建立在样本对于类别识别的不确定性描述,更能够准备客观反映现实世界事物之间的关系,从而成为聚类分析的研究主流。
在模糊c均值算法中,参数m起着举足轻重的作用,参数m的引入一定会对聚类分析以及聚类结果产生影响,最直接的影响就是将聚类的硬划分变成了模糊聚类划分,而且不同的m的值会产生不同模糊程度的数据划分,从而产生不同的聚类结果,因此,对参数m的选取具有重要的意义。本文重点研究了基于模糊决策的参数m的优选方法,取得了一定的研究成果。
在应用FCM算法时,一个首先需要确定的参数就是数据集的聚类数,因此对于给定的数据集的聚类数是否合理就是对该聚类结果进行有效性评价。目前,对聚类数是否合理的问题,学者们一般采用有效性指标进行评价。迄今为止,已经提出若干检验聚类有效性的算法。本文着重对Xie-Beni指标及其扩展性进行研究,对该指标中存在的问题做了相应改进,引入了一个点密度惩罚因子,定义了一个新的聚类有效性指标并对指标进行理论分析。最后的数值仿真实验表明了它具有良好的评价功能和鲁棒性,能够有效地克服原指标的缺点。