基于云计算的数据库关键词查询技术研究

来源 :南京财经大学 | 被引量 : 1次 | 上传用户:honghongjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系数据库关键词搜索为不了解数据库模式、不具备结构化查询语言知识的普通用户提供了一种有效获取数据库信息的方式,越来越受到研究人员的关注。许多研究把关系数据转换成一个数据图,图中的节点和边可以关联文本内容。数据图能够还原数据原本的存在形式和数据间的关系,因此数据库关键词查询被转化为对数据图的检索。当前,随着海量数据不断涌现,数据库的规模与日俱增,元组之间关系也愈加复杂,关键词查询任务同时具备了数据密集型和计算密集型的特征。如何存储大规模数据图、如何高效检索大规模数据图以及如何保证海量数据环境下关键词查询的查全率等是值得研究的问题。本文针对上述问题提出了解决思路,主要工作体现在三个方面。目前关系数据的关键词查询普遍直接对RDBMS进行查询,查询效率受到数据库自身性能的限制,尤其是在海量数据场景下。本文根据关系数据库各个数据表记录之间的主外键约束关系将关系数据库中的数据转换成数据图并序列化存放在分布式文件系统HDFS中,HDFS具有良好的横向可扩展性,为实施大规模数据图搜索奠定了基础。目前对数据图检索算法的研究大多借鉴了BANKS中提出的逆向扩展搜索算法,后续的一些研究局限于对算法本身的微小改进,没有考虑到对数据图进行分布存储、并行搜索,而现有串行的算法在处理大规模数据图时不具备可扩展性。针对上述问题,本文引入分布式计算模型,把逆向搜索算法并行化,分别提出了基于Map Reduce和Spark的逆向搜索算法,并做了实验验证,为云计算环境下的数据图检索提出了思路。BANKS中提出的逆向搜索算法为了减少一定的搜索空间,在某个节点同时成为多棵结果树的根节点的情况下只会输出一棵结果树。在海量数据环境下这种策略带来的结果丢失问题会被成倍放大,本文在基于Spark的逆向搜索算法中对此做了改进。首先找出所有候选的根节点,然后从每个候选根节点出发进行前向搜索,只要根节点到包含关键词的叶子节点之间存在路径,就输出对应的结果树,而不考虑根节点是否已经包含在其它结果树中。这种方法在Spark内建的函数式转换中实现方便,且提高了上述情况下的查全率。
其他文献
随着信息化程度的不断提高,数据中心发生灾难而造成的数据丢失,会给企业造成巨大的损失,因此构建容灾系统对企业变得越来越重要。调查表明:总体拥有成本(TCO)过高是很多企业
动态二进制翻译器采用运行时翻译的方法来动态生成可执行代码,而传统调试器只能被用来调试静态生成的代码,所以传统调试器无法被用来调试运行在动态二进制翻译平台之上的可执
支持向量机方法已成为数据挖掘中不可缺少的一项技术,它成为近年来数据挖掘技术的新热点。现有的支持向量机大多速度较慢,无法适应实际应用。2005年Tsang提出的核心向量机(Co
随着互联网技术的发展,电子邮件得到了广泛应用,但同时带来了垃圾邮件的泛滥。我国反垃圾邮件工作起步较晚,垃圾邮件在国内情况十分严重。常用的反垃圾邮件技术一般包括白名
基于传感器网络的目标跟踪具有广阔的应用前景,在诸如野生动植物、医学研究以及军事情报收集、地震救援等领域都具有十分重大的意义。本文的研究目标就是使得我们在这些应用
近年来,虚拟手术是数字医疗研究的热点问题之一,它主要应用于教学、培训、诊断、术前计划、康复和手术器械的建模和分析。实现虚拟手术系统的基础是人体器官的软组织建模。目
温度是对蜜蜂生命活动影响最大的环境因素,在寒冷季节,蜜蜂紧缩总体呈椭球状分布;在温暖季节,蜜蜂散开在各张巢脾上呈近乎均匀分布。蜜蜂在繁殖后代时,蜂巢内基本维持在最适
21世纪制造企业的主要模式是敏捷制造。随着信息技术的飞速发展和经济的全球化,企业面对持续快速变化的需求,必须能够快速地做出响应,从而才能贏得市场,赢得客户。制造执行系
电子商务的迅猛发展改变了人们传统的购物习惯。然而,现有的利用分类搜索和关键字搜索的商品搜索技术,存在搜索结果量大而匹配精确度低的问题。本文以商品图像搜索为研究焦点
随着互联网行业规模的大力发展,数据存储量已由原来的TB跃升到PB、EB乃至ZB,大量结构化、半结构化和非结构化的数据面临着统一处理和分析。在这种背景下,大数据技术应用而生,大数