论文部分内容阅读
随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩短信息检索的时间,提高数据查询的效率,挖掘出潜在的信息价值,能够为决策提供更好的数据支持。因此XML文档聚类研究已经成为一个新的研究热点。实现快速有效的XML文档聚类,必须解决两个关键性问题,其一,得到一个准确的文档间相似性度量度量方法;其二、寻求一个有效的文档聚类方法。由于XML文档标签可自定义,因此常出现同类文档集标签不同而意思相同的情况。
本文提出了基于文档的层次模型和特征词向量模型的文档相似度度量方法XSCL(XML Documents Similarity based on Content and Level),来计算文档的结构与内容相似度,提高文档间距离的计算精度,减少因误差而产生的离群点。实验结果表明,在出现标签不同而意思相同的情况下,XSCL方法对文档聚类有明显的改善。传统的密度算法DBSCAN算法的参数输入敏感,参数值难以设置,实用性差。相对密度聚类算法RDBClustering算法通过计算k近邻的分布情况,来判断对象是否在同一个簇,减少了参数的输入。但计算k近邻时,需要遍历整个文档集,在数据集庞大的情况下,I/O消耗巨大。因此,本文提出改进的相对密度聚类算法XTIRDB(XML Doeumem Relatived Clustering by Means of the TriangleInequality)。XTIRDB算法是基于三角不等式定理,建立候选k近邻邻居,减少k近邻搜索空间,通过不断更新候选k近邻邻居,最终得到k近邻邻居。实验表明XTIRDB算法在XML文档聚类上更具有实用性和时效性。