论文部分内容阅读
随着计算机网络技术的发展和互联网络用户的增加,半结构化数据被广泛应用。万维网联盟W3C制定的可扩展标记语言XML是典型的半结构化数据。XML格式因其层次性、自述性、动态可变性等特点被广泛的使用,从Microsoft Office2007版本以后,Microsoft Office开始使用一种基于XML格式的OpenXML格式存储办公文档,而在Linux操作系统中,OpenDocument也使用基于XML格式的OpenOffice格式存储办公文档,根据万维网联盟,在下一代Web中,已经确定指出由XML格式取代HTML成为页面交换的标准格式。面对海量XML文档数据,如何从海量XML文档数据库中挖掘用户感兴趣的知识成为数据挖掘领域研究热点之一。而XML文档聚类问题就是XML文档数据挖掘研究的问题之一。XML文档聚类问题主要研究如何将具有相似特征的XML文档归为一簇,主要用于对具有相似特征的XML文档数据集进行数据分析。本文研究了一种针对静态XML文档数据的聚类方法。针对静态XML文档数据集,提出了一种基于XML文档树形结构数据集频繁模式的文档聚类方法。首先,提出了可以为XML文档进行编码的编码树结构(coding tree structure)。然后,使用挖掘的XML数据频繁模式为数据特征,使用余弦相似性度量方法和凝聚型层次聚类方法对XML文档数据集进行聚类。因为XML频繁模式数据集是原始XML文档数据集的子集,所以在XML文档频繁模式显著的数据集中,XML文档相似性度量的时间消耗被显著地降低了。经过计算机真实实验显示了本文算法具有良好的聚类结果并且具有良好的可扩展性。随后,本文研究了一种动态XML文档数据集的聚类方法。针对动态XML文档数据集特点,首先,提出带有时间版本参数的TDOM模型,TDOM模型能够记录XML文档数据在动态变化过程中历史变化过程,然后提出了XML文档显著频繁变化模式的定义,提出了在TDOM数据集中挖掘显著频繁变化模式的方法,最后,提出了一种基于显著频繁变化结构的动态XML文档数据集聚类方法。经过计算机真实实验显示了本文算法能够通过动态特征完成动态XML文档数据集的聚类任务并且具有良好的聚类结果和良好的可扩展性。聚类性能的评价是数据挖掘和机器学习领域中的一个热点问题。注意到当前几乎所有的评价指标都忽视了预测概率,而预测概率在聚类算法的评价过程中有着非常重要的作用。在本文中,将首先构造了一个加权的混淆矩阵,来反映预测概率的相关信息。之后,在该加权混淆矩阵的基础上,考虑到了预测概率并重新定义了传统的评价指标,例如,准确度,精密度,召回率,F-指标等。此外,研究了这些重新定义的评价指标的性能。实验结果表明,在区分度方面,重新定义的评价指标优于传统的评价指标。最后,研究了基于ROC(receiver operating characteristic,受试者工作特征)曲线的聚类模型性能的评价问题。首先,我们提出了加权正确实例对映射的概念。然后,在加权正确实例对映射的基础上,我们提出了一个新的评价指标。该指标的优点在于,它对分布不均匀的类不敏感,具有鲁棒性,而且有足够的区分度。实验结果表明,本章所提出的指标具有可靠性。本章所介绍的工作可能会推动模型设计领域的新研究,比如,设计新的基于优化的聚类模型或排序模型。