基于拓扑匹配子树方法的XML结构相似性度量方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:samuraitruong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断深入发展,信息技术在社会各领域中不断普及应用,许多传统、经典的信息技术科学方法在新领域中的应用遇到了新的问题与挑战。传统的HTML语言在数据表示、交换方面已不能适应日益增长的网络规模。这时,具有良好交互性、扩展性、易读性的XML语言应运而生,被广泛用于不同平台间的数据交互并作为最重要的网络存储数据的形式之一。近些年基于XML文档的应用大量涌现,这些应用大多会涉及到XML文档相似性计算。XML文档相似性计算已成为了数据库和信息检索的核心内容,是信息技术应用中所要解决的基本问题之一。虽然近些年国内外提出了很多比较XML相似度的算法,例如基于编辑距离的方法,基于信息检索的方法以及其他方法如路径匹配法等,但是这些方法在准确率和性能方面都有各自的不足之处,并且面对当前网络中的大规模XML数据时,现有方法并不能很好的处理。   本文针对以上问题,提出了一种基于拓扑匹配子树方法的XML结构相似性的度量方法,方法充分考虑了XML树的节点权重、路径权重以及XML树的结构信息度,定义了拓扑子树、拓扑匹配树和拓扑匹配度的概念,当比较XML模式树与数据树的结构相似度时,迭代的生成模式树的所有拓扑子树,通过查找拓扑子树在数据树中相应的拓扑匹配树并比较它们的拓扑匹配度,进而得到模式树与数据树的结构相似度。算法的时间复杂度为O(N2),有着较好的运行效率。针对如何能有效的管理大规模XML文件,本文提出了一种基于Hadoop平台的XML结构相似性计算系统,该系统使用上文中提到的基于拓扑匹配子树方法的XML结构相似性度量方法,具有高容错性、高传输率、高扩展性的特点。通过与其他方法的聚类对比实验,可分析证明本方法无论是在聚类准确率,还是在系统性能方面都是具有优势的。
其他文献
数据服务平台将分布在互联网上多源异构数据,通过数据服务建模封装成原子数据服务,多个原子数据服务组合形成复合数据服务。同时,复合数据服务具有层次结构,屏蔽了底层多源异构数
随着信息技术的高速发展,人类社会在过去几十年已经积累了大量的电子数据,当下电子商务、社交网络、科学研究等领域产生的数据呈爆炸式增长,未来的无线传感信息也将成为一个巨大
从20世纪90年代开始,伴随着电子通信、半导体技术、计算机网络等技术的发展,由具备感知和数据处理的传感器节点组成的无线传感器网络(Wireless Sensor Network,WSN)的技术及
随着科技的发展,各个行业都产生了大量的数据,为了解决在海量数据中获取有用的信息的问题,数据挖掘技术应运而生。机器学习是当前人工智能领域的热点研究方向之一,它本身也是一门
在图像处理技术用于虫卵图像处理时,受到诸多因素的影响。人工分辨缺乏客观性、稳定性和精确性,处理能力完全取决于研究人员的经验,并且得到的标本、数据和结果不便于存储、再现
近年来,随着网络技术的发展和社会信息化程度的提高,人们享受了网络所带来的便捷服务,但各种网络攻击的迅速扩展给社会造成了相当大的损失。DoS攻击是一种典型的网络攻击方式,它
无线传感器网络作为目前IT领域中研究的热点之一,具有巨大的发展潜力,其发展和应用,将会给人类的生产和生活的各个领域带来深远的影响。无线传感器网络通过各类集成化的微型传感
随着时代的进步和经济的快速发展,人们对家居生活水平的要求也在不断提高,智能家居概念在此背景下应运而生,而信息技术发展的日新月异为其快速发展提供了有力支撑。为了适应智能
虚拟现实(VirtualReality,VR)技术,作为20世纪末兴起的一门综合性信息技术,融合了计算机图形学、图像处理、传感器、网络、并行处理技术以及多媒体技术等多个信息技术分支。实
随着Internet和网络技术的快速发展,各种类型的网络应用迅速增加并且变得日益复杂。对网络应用系统进行分析和研究以保证系统的稳定性和可靠性具有重要的意义。模拟网络系统的