论文部分内容阅读
随着信息技术的迅速发展,需要分析和管理的数据迅速增多,这种趋势已经渗透到数据挖掘领域中。数据挖掘就是用来从大量的、不完全的、有噪声的、模糊的、随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。聚类分析是数据挖掘技术中重要的组成部分,从技术角度讲,它的主要目的是将数据空间中的数据点划分到若干个类中。其中,将距离相近的数据点划分到相同的类中,而将距离较远的数据点划分到不同的类中。 目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:划分方法、层次方法、混合方法和基于密度等方法,这些方法各有优缺点。每种算法只有聚类与之相适合的数据集时才能形成比较理想的聚类结果,而且聚类结果的质量很难定量评估。虽然已经提出一些聚类质量评估的方法,但是这些评估方法却不能与聚类算法有机结合,并指导聚类算法进行调整和更新以产生更好的聚类结果。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题。只有合理的设置聚类参数才能聚类出高质量的聚类结果。然而被聚类的数据集分布情况在聚类前往往是未知的,所以难以设置合理的聚类参数。而设置不合理的聚类参数又使得聚类结果质量变低。所以聚类参数设置问题应该首先被解决好。 本文提出一种高效的聚类模块和一种新颖的聚类质量评估模块。其中聚类模块包含两个取值范围有限的整形参数,通过遍历这两个聚类参数的全部取值,可以对数据集进行多遍聚类,然后利用评估模块对全部聚类结果进行评估,找到聚类质量最高的一个作为聚类算法的最终输出,这就是SECDU算法。该算虽然可以找到最优聚类,但是它的效率很低。通过爬山算法对SECDU进行优化,可以得到SECDUF算法。无论是SECDU算法还是SECDUF算法,它们对具有不同分布特性的数据集都有非常好的适应性,能够输出理想的聚类结果。而且SECDUF算法还具有聚类速度快、聚类参数自行调整,无需人工干预等优点。