论文部分内容阅读
随着网络技术的飞速发展,信息大量膨胀和聚集,互联网已经形成了一个由数据构成的巨大数据仓库,XML(eXtensible Markup Language)作为一种常用的数据交换和传输标准,蕴含了丰富的信息,具有通用的数据表示能力,能表示结构化、半结构化及元结构化的数据。因此,对XML文档的挖掘已经成为数据挖掘一个新的研究热点。其中,对XML文档分类的研究越来越广泛。根据XMI,文档的性质,分类时XML文档结构有许多模型,有基于树的、基于图的和基于路径的等等,其中XML文档的结构相似性度量是XML结构分析的核心问题。将XML文档视为一棵标记树时,已有的XML文档结构相似性度量主要包括距离编辑法、路径匹配法和时序分析法等。除结构以外,XML文档的内容对XML文档分类的影响也很重要,所以从结构和内容两方面研究XML文档分类方法具有重要的理论意义和广泛的实用价值。
本文基于结构和内容两个方面对XML文档分类模型和算法进行了深入研究。首先,针对目前XML文档基于结构和内容的编辑距离分类算法的不足,本文在计算相似性度量时提出了一种新的改进方法CS-XMLSim方法,使得当XML文档结构相似而内容差异大时,分类有较高的准确率。实验结果表明,当XML文档结构相似内容差异大时,CS-XMLSim方法在提高分类准确率方面有了明显改善。其次,针对传统KNN算法的不足,在CS-XMLSim算法作为相似度计算的基础上,本文提出了KNN的改进算法DB-KNN算法。DB-KNN算法是基于聚类和密度的KNN改进算法,DB-KNN算法根据训练样本的密度采用聚类的方法,除去训练集中一定数量的噪声样本,使样本在类别内分布地更加均匀,在提高文本分类准确率的同时,减少了样本间相似度的计算量,克服了KNN分类过程中搜索空间巨大的问题。最后通过实验验证了DB-KNN算法的有效性和高效性。