一种海量XML文档存储和检索平台的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:anny250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的迅速发展和互联网的高速普及,信息数据量正在飞速的膨胀。XML作为一种重要的网络信息交换格式,如何有效的组织和存储正在快速增长的海量XML数据,并提供快速高效的数据检索,是当今信息检索领域的一个研究重点。目前,XML数据的存储和检索一般使用Native XML或者关系数据库,但这类系统无法满足大规模数据的性能需求,而基于分布式的XML数据存储和检索技术则尚未成熟。本文针对以上需求,在对XML和云计算技术的研究基础上,设计并实现了一种海量XML文档存储和检索平台。首先,本文提出了一种XML到HBase的数据映射模型,该模型采用四路编码算法,实现了XML数据到HBase数据之间的映射。其次,本文借鉴了MapReduce的计算模型,采用HBase数据库,设计并实现了以XPath为前端查询语言的数据检索机制,充分利用HBase的特点,提高检索效率。最后,本文设计了一组实验,并通过该实验验证了本文提出的海量XML数据存储和检索平台的性能和有效性。
其他文献
近年来,随着社会的进步和数字信息化的高速发展,图像在日常生活中得到了广泛应用。然而,由于各种图像处理设备性能的不完善,导致图像在获取、传输和存储的过程中容易受到各类
推荐系统作为一种新型的信息过滤技术手段,可以有效解决信息过载问题。然而,随着互联网信息的内容复杂度、访问人数、攻击手段的快速增加与变化,现有推荐系统暴露了很多不足,
形式概念分析是德国数学家Wille教授于1982年提出的。经过三十年的发展,已经应用于多个领域,如知识发现、机器学习等。形式概念分析的核心数据结构是概念格,因此其应用的核心就
随着计算机网络技术的发展,网络信息变得越来越海量,同时也越来越复杂,人们在浏览网页新闻时能否快速找到自己感兴趣的类别是判别该网站优劣的一个重要标准,传统的是靠人工方法对
随着国内外微小卫星技术的不断发展,微小卫星系统的功能越来越复杂、越来越强大,传统的不具备操作系统的微小卫星系统已经无法满足功能性上的需求。对于提供微小卫星上功能模块
本文从多尺度几何分析,尤其是Shearlet变换的角度出发,初步探讨了一些基于多尺度几何分析和脉冲耦合神经网络(PCNN)的图像融合算法及其改进方法,并成功地将其应用在多种图像融合
目前,多点触摸技术已经在多种触摸识别系统中得到了应用,如使用电阻或电容式触摸屏的小型移动设备,但是将多点触摸技术与桌面GIS (GeographyInformation System)结合使用的应用
无线传感器网络是一种由资源受限的传感器节点构成的自组织网络,如何构建高效节能的自组织方法是其研究的重要问题。计算智能属于仿生类算法,其潜在并行性、自组织性和分布式特
生物医学信号是由复杂生命体发出的自然信号,通过记录和分析生物医学信号可以了解人体的健康状况及机体器官的机能变化。生物信号中的电信号,如心电信号、脑电信号、脉搏信号等
提取有效的图像特征是许多计算机视觉问题的重要步骤,往往决定了计算机视觉方法的成败。随着互联网和手持设备的普及,大规模的图像视频资料的实时处理已成为计算机视觉乃至整