基于Hadoop的XML关键字查询算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:heeroyuyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可扩展标记语言(eXtensible Markup Language,XML),是基于标准广义标记语言,用于定义语义标记的一套规则。它已经在数据挖掘、数据库系统等诸多应用领域发挥了重要的作用。XML正在成为数据管理与存储的重要技术。为了能从海量XML数据中提取用户所需要的信息,许多XML数据查询方法应运而生,使得XML数据查询成为相关领域的一个研究热点。云计算是一种可以实现程序并行化的编程模型,简单来说就是可以将大规模数据分布存储在由大量机器组成的集群中,同时集群本身可以由大量成本较低的计算机组成,而不用购置高配置的机器,这很大程度上是一种资源的节约。Hadoop作为一种主流的云计算平台被人们广泛关注,其自身方便而简洁的特点,使得用户编写代码能够得心应手。它的这种明显的优势使得大规模XML关键字查询所面临的问题得到解决。本文针对XML关键字查询相关算法进行了深入研究,并用Hadoop作为计算平台,提出将查询算法并行化的方案,主要研究工作如下:(1)针对目前XML关键字查询算法存在的问题,本文根据Dewey编码分布特点提出了一种智能分组方案,在查询开始之前对Dewey码集合中的元素进行分组。该分组方案在基于索引搜索算法的基础上设计,并提出了智能分组索引查询算法(Intelligent Indexed Lookup Eager,IILE)。对比实验的结果表明,提出的智能分组索引查询算法获得了较高的执行效率。(2)考虑到目前海量数据在单机上的运行时间过长的问题和大规模数据的处理要求,以及Hadoop环境对数据的分块机制,本文进一步分析了IILE算法的特点,提出了一个基于SLCA分解规律与合并规律的属性,该属性有利于将算法进行分布式计算,并在此基础上提出了一种XML关键字并行化查询方案。该方案基于Map Reduce编程模型设计和实现。实验结果表明,对于大规模的XML关键字查询,提出的并行化方案在Hadoop平台下具有较高的执行效率。
其他文献
目前,视频点播系统(VoD)已经成为在网络上最主流的应用之一。建立在P2P网络基础上的VoD,结合了P2P网络的自动负载均衡,容错性高的优点成为VoD技术的新趋势。本文针对中心化和
图像分割是图像处理的一个重要工具,一个有效的、前端的、复杂的算法。它能够简化对图像的后续处理,并在视频和计算机视觉方面都有应用,如目标定位或识别、数据压缩、跟踪、
随着互联网和经济的快速发展,在互联网中存在越来越多不同类型的股票信息,这些股票信息具有高维度、信息量大、易变等特点,并经常给一般用户带来困惑。因此,用户需要好的信息
近几年来移动通讯设备普及率越来越高,计算能力与通讯能力越来越强,移动通讯网络的服务也越来越完善。通过移动通讯网络来从事工作、娱乐和消费对未来的用户来说将不再只是梦
随着信息产业的发展和三网融合进程的加快,IPTV(交互式网络电视)逐渐成为将互联网、多媒体、通信融为一体的热门技术。同时,随着网络规模的不断扩大,现有的IPv4网络所固有的
连续属性离散化是数据挖掘和机器学习研究及应用中的一个重要方面。在很多规则提取、特征分类算法中,连续(实值)属性必须进行离散化。连续属性离散化就是在特定的连续属性的
Web服务编排描述语言(Web Services Choreography Description Language,简称WS-CDL)从全局的视点描述服务组合各个参与方的行为规范,并且具有可重用性以可及描述事务性等特
中国电信“无线全球眼”业务通过前端即无线PU的无线视频采集,提供中国电信3G网络的传输信道,可以实现在有线网络不能到达的区域以及移动状态下的视频监控,在各行业有着广泛的需
图像的二维形状以其简单、高效、易用等特点成为图像表示的重要选择之一。目前基于二维形状的识别已被应用到很多领域,如目标识别,基于内容的图像检索,文字识别,医疗诊断等,
近年来,基于物理模型的可视化仿真技术不断进步,如帽子自由落体与桌面碰撞变形、旗帜在风中飘扬、粘弹性物体之间的互相撞击等,具有高度真实感的仿真技术已经成为未来几年里