论文部分内容阅读
聚类分析是智能信息处理、数据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有重要作用。大多数聚类算法都需要预先给出参数,如聚类数目、聚类中心点或迭代次数等。事实上,如果没有相关知识和经验,这在多数情况下是不可行的。因此,为了减少人为干扰因素,本文基于决策粗糙集模型进行了自动聚类的研究。
Hirano和Tsumoto等提出的面向知识(Knowledge-Oriented)聚类算法,通过结合层次聚类算法和粗糙集理论,能从局部和全局的数据特性上对数据进行聚类,具有很好的聚类效果。因此,本文采用了面向知识聚类的算法框架进行自动聚类的研究。首先,针对面向知识聚类算法的初始聚类结果对用户输入的初始阈值参数敏感这一问题,本文提出了一种自动阈值选取方法--选择差值法。该方法充分考虑了数据的物理特性,能自动地得到较好的初始聚类结果。此外,本文研究发现了以往文献中定义的类类不可区分度公式的不合理性并进行了改进,新的计算方法使聚类结果更加准确。
本文还对决策粗糙集模型进行了研究,提出了基于决策粗糙集的聚类模式代价评估方法,能够动态的对聚类结果进行评估,根据聚类模式的代价值的变化来制定合并策略和指导算法选择终止点;另外,新方法也自动地给出了类重叠边界区域的范围,有助于用户选择不同粒度的聚类结果。
同时,本文给出了一个基于决策粗糙集的面向知识自动聚类算法,在人工数据集和标准数据集上的实验结果表明该算法是有效可行的,并且能处理类类边界重叠问题,也不需要人为阈值的设定。
最后,本文将上述研究成果应用到了Web搜索结果聚类中,仿真实验表明新方法在边界具有重叠现象的聚类中应用良好。