论文部分内容阅读
数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储了海量数据。数据作为信息的主要载体在当今信息化社会中扮演着重要的角色。人们希望计算机帮助我们从海量数据中提取有趣的知识、规律或高层信息,帮助我们基于丰富的数据作出决策,由此产生了数据挖掘,并得到广泛的研究。数据挖掘的其中一个重要分支是聚类分析。聚类是指根据“物以类聚”的原理,将样本聚集成不同的组,使同一个组的样本之间应该彼此相似,而不同组的样本之间应足够不相似。传统的聚类对数据的划分比较严格,具有“非此即彼”的性质。然而,许多客观事物具有“亦此亦彼”的性质,比较适合“软”划分,将模糊集理论引入聚类分析,这种软划分具备了较强的理论基础,模糊聚类分析由此产生了。聚类是一种无监督的分类,需要预先设定一些参数,尤其是聚类数c和模糊因子m。评估数据集的模糊划分是否符合客观事实,这属于模糊聚类有效性问题。对模糊聚类来说,有效性问题又往往可以转化为最佳类别数c的决策问题。经典的Xie-beni指标Vxie存在着两个缺点,有几位研究者对它进行了改进,但是仍然存在各自的不足。本文仔细研究了他们各自的优缺点,继承了其思想,并重点分析了模糊因子m对FCM类型算法及有效性函数判断能力的影响。同时考虑模糊因子m和聚类数c的变化,引入两个惩罚函数,分别克服指标Vxie存在的两个缺点,提出了一种改进的模糊聚类有效性函数Vnew。并根据数学分析中一元函数和多元函数的极限的相关知识,在理论上证明了该指标的有效性。通过分析各指标函数的表达式可知,指标Vnew的时间复杂度较小。Wu等首次将紧凑度、重叠度和分离度三者相结合,提出有效性指标Vcso,并给出了重叠度的定义。本论文分析了该重叠度定义中的主观性较大,会影响到指标Vcso的稳定性和评价聚类有效性的准确性。接着,本文重点研究了隶属矩阵中各元素的几何意义,从c-模糊划分矩阵出发,给出了重叠度新的定义,并结合例子给以详细分析,证明了该定义的可行性。另外,考虑了模糊因子m对指标可靠性的影响,延续有效性指标Vcso的思想,提出一种新的结构化的模糊聚类有效性指标Vcso-new。