面向海量数据管理的分布式倒排索引研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fzzlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类数字化时代的到来,每天都会产生大量的信息数据,各种信息检索系统已经成为人们有获取有效信息的重要手段。当面临海量数据的时候,检索系统唯有依靠分布式的索引架构才能够快速有效地管理数据。可以看出,分布式索引是这个时代信息大爆炸催生的产物,同时也是未来海量数据管理中重要的组成部分。   本文首先介绍了索引分布式化的常见手段,然后阐述了当前“倒排索引”在分布式处理中的技术和现状。在基础上,提出了一种基于用户“查询”的“混合”分布式倒排索引组织方式,并对该方式中的关键技术进行了详细的说明和介绍,同时给出了基于该索引组织方式的“查询路由”策略,最后还针对用户“查询”趋势的变化,完善了索引结构的动态调整算法。   本文介绍国家“核高基”项目中的“海量非结构化数据管理系统(UDMS)”的目标及结构,重点说明了其任务处理流程。然后分析整个系统对索引管理的需求。设计了基于“UDMS”架构的通用分布式索引框架。该框架的设计具有可靠性、扩扩展性和灵活性。同时在本文中对其数据结构的设计和各个模块的具体实现进行了详细的说明和介绍。   针对本文提出的“分布式倒排索引”的技术方案,进行实验分析对比。验证其可行性,并分析其在不同应用需求下的参数调整策略。同时对未来的改进方向提出建议。
其他文献
随着经济的不断发展和交通管理的复杂化,交通智能中的车牌识别系统(LPR)已经成为热门研究领域。车牌识别系统可以动态抓取视频图像或者静态图像,将车牌号码自动识别出来,并且
IEC61131-3标准明确表示,顺序功能图(Sequential Function Chart, SFC)和梯形图(Ladder Diagram, LD)是可编程逻辑控制器(Programmable Logic Controller, PLC)的常用编程语
物联网是以传感网为基础,建立在互联网之上的新型大规模物物相联网络,物联网的发展将会引领继计算机、互联网之后的世界信息产业第三次浪潮。大规模的物物相连网络,必然会带来信
自从2009年Berners–Lee在TED大会上发言后,关联数据技术得到了迅猛发展。截至2011年9月关联开放数据云已包含了310亿个RDF三元组和近50.4亿个RDF关联。面对如此海量的关联数
随着信息技术的飞速发展以及网络应用的日新月异,互联网已经成为现代社会中不可或缺的部分,然而,人们在享受互联网带来便利的同时,也不得不面对脆弱的网络安全所带来的巨大困扰,因
自从信息技术诞生以来,随着其高速的发展,人们的生活每时每刻都在受信息技术的影响,尤其是当今的互联网的飞速发展,大大改变着这个世界,改变着人们的思考和交流方式。人类的
工作流技术是当前计算机应用领域和计算机信息技术领域迅速发展的一项新技术。基于工作流的管理系统已成为一种趋势,并逐渐成为软件开发的一个基础平台,特别是信息系统,工作
随着计算机及网络技术的发展,数字化办公在政府、企业内得到广泛应用,信息泄漏事件的频频发生使信息安全越来越得到人们的重视。针对内网和外网安全,很多公司开发了保护信息安全
角色动画是计算机动画技术的一个重要组成部分,也是计算机图形学的一个重要分支。角色动画在离线渲染环境下和实时渲染环境下都得到了广泛的应用。在实时渲染环境下,主要应用
近年来,突发事件频频发生。应急管理的重要性越来越突出。应急管理的过程中涉及多方面数据的融合。如何快速、准确的提供相关的数据是急需研究的问题。随着互联网的发展,网络