论文部分内容阅读
当今的信息时代,信息交互愈加频繁,XML已经成为信息表示和数据交换的标准。随着大量XML信息的出现,XML数据的处理也逐渐成为人们关注的焦点,由此衍生出XML数据处理的两大研究方向,XML数据挖掘与XML信息检索。在XML数据挖掘中,XML数据的结构聚类仍然是当前的主要研究任务,而在XML信息检索中,一个亟待解决的焦点问题是结构模糊查询与匹配。
虽然XML数据结构聚类与XML信息检索有着各自的研究内容和不同的实现目标,但是它们却都依赖于共同的研究基础,即良好的XML数据结构表示模型、基于模型的相似度计算,以及对XML数据结构的快速聚类等等。论文针对该基础问题进行研究与探讨,在总结和分析现有的XML数据表示模型和相似度计算方法的基础上,提出了一种新的XML数据结构表示模型——LSPX模型,并定义了其上的相似度计算方法,最后给出了一种快速的增量式聚类算法。
LSPX模型简洁、完整地表示了XML数据的结构信息。基于该模型的相似度计算,不仅很好地结合了语义信息,使计算结果更加准确;还将计算的粒度有效地扩展到聚类级别,省去了传统的“逐对”计算方式所导致的时间消耗,极大地缩短了整个聚类过程。基于LSPX模型的增量式聚类算法,在保证聚类结果质量的基础上,大大地提高了XML数据结构聚类的速度。实验结果表明,LSPX模型构造迅速,且基于该模型的聚类算法真正做到了XML数据结构聚类的快速、有效、实用。这些都为XML数据的后续处理和研究工作打下了良好而坚实的基础。