基于拓扑匹配子树方法的XML结构相似性度量方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：samuraitruong

【摘要】

：

随着互联网技术的不断深入发展，信息技术在社会各领域中不断普及应用，许多传统、经典的信息技术科学方法在新领域中的应用遇到了新的问题与挑战。传统的HTML语言在数据表示、交

【作者】

：

范宝泉

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2013年期

【关键词】

：

信息检索数据挖掘拓扑匹配程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的不断深入发展，信息技术在社会各领域中不断普及应用，许多传统、经典的信息技术科学方法在新领域中的应用遇到了新的问题与挑战。传统的HTML语言在数据表示、交换方面已不能适应日益增长的网络规模。这时，具有良好交互性、扩展性、易读性的XML语言应运而生，被广泛用于不同平台间的数据交互并作为最重要的网络存储数据的形式之一。近些年基于XML文档的应用大量涌现，这些应用大多会涉及到XML文档相似性计算。XML文档相似性计算已成为了数据库和信息检索的核心内容，是信息技术应用中所要解决的基本问题之一。虽然近些年国内外提出了很多比较XML相似度的算法，例如基于编辑距离的方法，基于信息检索的方法以及其他方法如路径匹配法等，但是这些方法在准确率和性能方面都有各自的不足之处，并且面对当前网络中的大规模XML数据时，现有方法并不能很好的处理。　　本文针对以上问题，提出了一种基于拓扑匹配子树方法的XML结构相似性的度量方法，方法充分考虑了XML树的节点权重、路径权重以及XML树的结构信息度，定义了拓扑子树、拓扑匹配树和拓扑匹配度的概念，当比较XML模式树与数据树的结构相似度时，迭代的生成模式树的所有拓扑子树，通过查找拓扑子树在数据树中相应的拓扑匹配树并比较它们的拓扑匹配度，进而得到模式树与数据树的结构相似度。算法的时间复杂度为O(N2)，有着较好的运行效率。针对如何能有效的管理大规模XML文件，本文提出了一种基于Hadoop平台的XML结构相似性计算系统，该系统使用上文中提到的基于拓扑匹配子树方法的XML结构相似性度量方法，具有高容错性、高传输率、高扩展性的特点。通过与其他方法的聚类对比实验，可分析证明本方法无论是在聚类准确率，还是在系统性能方面都是具有优势的。

其他文献

基于缓存的复合数据服务更新优化

数据服务平台将分布在互联网上多源异构数据，通过数据服务建模封装成原子数据服务，多个原子数据服务组合形成复合数据服务。同时，复合数据服务具有层次结构，屏蔽了底层多源异构数

学位

数据服务更新优化启发性规则数据缓存

数据库集群自动化测试框架(DCTAF)的研究与应用

随着信息技术的高速发展，人类社会在过去几十年已经积累了大量的电子数据，当下电子商务、社交网络、科学研究等领域产生的数据呈爆炸式增长，未来的无线传感信息也将成为一个巨大

学位

数据库集群自动化测试回归测试拓扑结构

无线传感器网络加权定位算法的改进

从20世纪90年代开始,伴随着电子通信、半导体技术、计算机网络等技术的发展,由具备感知和数据处理的传感器节点组成的无线传感器网络(Wireless Sensor Network,WSN)的技术及

学位

无线传感器网络加权定位算法伪锚节点Matlab定位算法

不平衡数据分类和极限学习机算法研究

随着科技的发展，各个行业都产生了大量的数据，为了解决在海量数据中获取有用的信息的问题，数据挖掘技术应运而生。机器学习是当前人工智能领域的热点研究方向之一，它本身也是一门

学位

机器学习不平衡数据分类数据挖掘极限学习机贝叶斯分类法

虫卵图像分割的研究与实现

在图像处理技术用于虫卵图像处理时，受到诸多因素的影响。人工分辨缺乏客观性、稳定性和精确性，处理能力完全取决于研究人员的经验，并且得到的标本、数据和结果不便于存储、再现

学位

虫卵图像数学形态学分水岭边界脊线标记极小值合并

Web服务中端信息跳变系统的部署策略

近年来，随着网络技术的发展和社会信息化程度的提高，人们享受了网络所带来的便捷服务，但各种网络攻击的迅速扩展给社会造成了相当大的损失。DoS攻击是一种典型的网络攻击方式，它

学位

网络安全端信息跳变自适应策略Web服务抗攻击性能

无线传感器网络质心和DV-Hop定位算法研究

无线传感器网络作为目前IT领域中研究的热点之一，具有巨大的发展潜力，其发展和应用，将会给人类的生产和生活的各个领域带来深远的影响。无线传感器网络通过各类集成化的微型传感

学位

无线传感器网络质心定位算法DV-Hop定位算法节点定位

基于ARM的智能家居控制终端设计与实现

随着时代的进步和经济的快速发展，人们对家居生活水平的要求也在不断提高，智能家居概念在此背景下应运而生，而信息技术发展的日新月异为其快速发展提供了有力支撑。为了适应智能

学位

智能家居控制终端软件架构嵌入式系统

分布式虚拟场景的构建技术及其应用

虚拟现实(VirtualReality,VR)技术，作为20世纪末兴起的一门综合性信息技术，融合了计算机图形学、图像处理、传感器、网络、并行处理技术以及多媒体技术等多个信息技术分支。实

学位

虚拟现实监控技术场景构建树结构

基于集群的自相似网络流量模拟系统的研究

随着Internet和网络技术的快速发展，各种类型的网络应用迅速增加并且变得日益复杂。对网络应用系统进行分析和研究以保证系统的稳定性和可靠性具有重要的意义。模拟网络系统的

学位

网络流量负载均衡故障转移集群系统

基于拓扑匹配子树方法的XML结构相似性度量方法研究

与本文相关的学术论文