大数据的全文检索研究

被引量 : 0次 | 上传用户:hanleifeng222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的持续快速发展,人类社会进入了一个前所未有的信息化时代,那就是大数据时代。在大数据时代,人们掌握的数据在以爆炸性的速度增长,因而大数据的存储和分析方法成为处理大数据的关键。大数据不仅仅是数据量的增长,数据的形态也在发生着根本性的变化。据统计,目前互联网上80%以上的数据都是非结构化数据。因此,研究如何处理大规模非结构化数据,成为解决人们在大数据时代如何快速获取有效信息的必由之路。全文检索是信息检索领域一个非常重要的研究方向,它在非结构化数据处理方面具有无可比拟的优势,它的核心就是索引技术。本文着重介绍了两种不同索引结构的索引模型,分别是基于外存的B+树索引模型和基于外存的线性散列索引模型,并对两种索引模型的性能进行了比较实验研究。首先,本文介绍了本课题的研究背景和研究意义,以及国内外对大数据和全文检索系统的研究现状,并结合国内外研究进展情况提出了本文的研究内容、研究目标和拟解决的关键问题。对大数据的概念、全文检索的概念、系统的整体架构设计及全文检索系统涉及到的关键技术也进行了详细阐述。其次,本文研究了基于两种不同索引结构的全文检索系统的设计和实现过程。整个全文检索系统主要包括三个模块:索引模型构建模块、索引存储结构的设计与实现模块与系统检索模型构建模块,并详细介绍了每个模块的设计思路和实现细节。整个系统主要包括文档集合来源、文档预处理、正排索引构建、分块式倒排索引构建、词典文件的结构设计、索引文件的结构设计、缓冲区的管理机制、基于B+树的倒排索引的实现、基于线性散列的倒排索引的实现、系统检索模型构建等内容。最后,本文对两种不同索引结构的倒排索引模型从时间复杂度和空间复杂度两个方面进行了比较测试研究。具体是对检索效率、索引维护效率以及两种索引模式下磁盘占用体积等方面进行了对比实验,并对实验结果进行了分析。实验结果表明,查询每万条数据耗时线性散列比B+树索引快74.21%,插入每万条数据耗时线性散列为B+树索引的2.44倍,删除每万条数据耗时线性散列为B+树索引的83.52%,线性散列索引文件大小为B+树索引文件大小的109.56%。由测试结果可知,B+树索引具有较快的索引构建和更新速度,而线性散列索引则具有较高的磁盘空间占用率和较好的查询性能。
其他文献
目的探讨腹腔镜下输卵管积水的不同处理方式对超促排卵中卵巢储备功能和体外受精-胚胎移植(IVF-ET)新鲜周期移植成功率的影响。方法选择因输卵管性因素不孕在我院辅助生殖中
自税收出现以来,纳税人便开始采取各种方法进行税收逃避。对于小规模的非上市企业来说,其所有者即为日常经营活动的管理者,所以学者们认为这一类企业的纳税决策活动与自然人纳
目的提高对过敏性支气管肺曲霉菌病(ABPA)的认识,以期对ABPA患者做到早期诊断和治疗。方法对2例ABPA患者的临床资料进行描述、分析。结果 ABPA患者的临床表现与支气管哮喘有
休闲农业是重要的民生产业和新型消费业态,为农业增效、农民增收、农村环境改善和经济社会发展做出了积极贡献。本文采用数据挖掘技术和无线传感器网络理论,结合相关农业技术,对
目的了解外来流动人口孕产妇保健管理、服务利用的现状,完善公共卫生管理职能提出合理化建议,为进一步发展社区卫生服务技能,创造健康支持环境,提供公平、安全、有效的全程管
目的:探讨和爽(复方聚乙二醇电解质散)在结肠镜下电灼息肉前肠道准备中的应用效果。方法:将200例结肠息肉患者随机分为口服和爽组和清洁灌肠组各100例,比较两组肠道清洁效果
本版块的两组文章,对学生学习数学的重要方式进一步深入讨论,给读者留下深刻印象。《巧设小组讨论》一文,结合教学实例,就“合作交流”的重要形式——小组讨论的设计及设置点
韩礼德先生于2018年4月15日悉尼时间晚8点去世,享年93岁。我的导师韩礼德先生走了,永远离开了。噩耗传来,悲痛难抑。种种思绪,涌上心头。这里汇报一下我亲身经历和目睹的先生
二语词汇习得一直是二语习得研究的重点课题。通过实证研究探讨了在英语报刊阅读中使用词典时词汇学习的效果以及词典的类型在词汇学习中的差异。实验结果表明,使用词典时,在