论文部分内容阅读
随着互联网技术的不断深入发展,信息技术在社会各领域中不断普及应用,许多传统、经典的信息技术科学方法在新领域中的应用遇到了新的问题与挑战。传统的HTML语言在数据表示、交换方面已不能适应日益增长的网络规模。这时,具有良好交互性、扩展性、易读性的XML语言应运而生,被广泛用于不同平台间的数据交互并作为最重要的网络存储数据的形式之一。近些年基于XML文档的应用大量涌现,这些应用大多会涉及到XML文档相似性计算。XML文档相似性计算已成为了数据库和信息检索的核心内容,是信息技术应用中所要解决的基本问题之一。虽然近些年国内外提出了很多比较XML相似度的算法,例如基于编辑距离的方法,基于信息检索的方法以及其他方法如路径匹配法等,但是这些方法在准确率和性能方面都有各自的不足之处,并且面对当前网络中的大规模XML数据时,现有方法并不能很好的处理。
本文针对以上问题,提出了一种基于拓扑匹配子树方法的XML结构相似性的度量方法,方法充分考虑了XML树的节点权重、路径权重以及XML树的结构信息度,定义了拓扑子树、拓扑匹配树和拓扑匹配度的概念,当比较XML模式树与数据树的结构相似度时,迭代的生成模式树的所有拓扑子树,通过查找拓扑子树在数据树中相应的拓扑匹配树并比较它们的拓扑匹配度,进而得到模式树与数据树的结构相似度。算法的时间复杂度为O(N2),有着较好的运行效率。针对如何能有效的管理大规模XML文件,本文提出了一种基于Hadoop平台的XML结构相似性计算系统,该系统使用上文中提到的基于拓扑匹配子树方法的XML结构相似性度量方法,具有高容错性、高传输率、高扩展性的特点。通过与其他方法的聚类对比实验,可分析证明本方法无论是在聚类准确率,还是在系统性能方面都是具有优势的。