基于Map/Reduce的分布式搜索模型研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:kuwowangzhen111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技术的出现方便了人们快速而且有效的获取信息。在搜索技术中,最突出的搜索工具就是搜索引擎,当然针对于一些特定数据的搜索工具,比如说在交叉学科领域的一些数据的检索工具也给人们带来了巨大的便利之处。本文正是基于这两个方面开展研究工作,并且从研究和设计的角度出发,对于分布式搜索领域的相关理论和技术进行了详细的讨论和分析,详细的介绍了Map/Reduce的分布式架构技术和搜索领域的Lucene技术,并以此为基础,开展了两项工作的设计开发。论文中主要实现的工作为:第一,实现了学术论文搜索的单机搜索模型和分布式搜索模型的开发,并对于其中遇到的一些问题进行了解决或优化;第二,对于学术论文搜索中的文本分类和索引存储进行了方法上的改进,使得效率有了显著的提高;第三,实现了基因/蛋白质序列搜索的单机搜索模型和分布式搜索模型的开发,对于分布式中的Combiner优化和数据倾斜的问题,给出了合理的解决方法;第四,通过对于单机搜索模式和分布式搜索模式的实验数据对比,突出展示了分布式模式在解决大数据问题上的优越性。本文通过设计与开发搜索工具并进行分布式扩展,使我们了解到分布式搜索模型在大数据领域的先进性和优越性,并且对于其中遇到的问题都有妥善的处理和详细的解答,所以,本文的内容是具有极大的研究意义的。
其他文献
云计算技术的兴起和快速发展,使用户可以将海量图像数据存储到云服务器。这样不但可以减轻用户的存储和管理负担,而且能为用户提供便捷的数据访问服务。但云服务器并不是完全可
随着网络技术和计算机技术的快速发展,电子文档成为日常学习和工作中不可或缺的资料。数学表达式作为许多电子文档重要的组成部分,如何将其输入到计算机中是亟待解决的问题。早
随着智能电网建设的快速发展,电力系统设备种类和数量越来越多,对电力设备图像的特征提取和准确分类,有利于提升电力系统管理的自动化和智能化水平。本文首先对从现场采集到的电
目前,每年生物医学文献的数量正在呈指数的方式增长,科研人员为了得到好的研究成果,需要查找阅读大量的文献,但如此大规模的文献,给科研人员带来了巨大的困难。同时,现代科学
集成学习的主要思想是融合多个分类学习算法的分类性能来提高整体分类算法的泛化能力。构建一个具有多样性/差异度大的弱分类学习算法集合是集成学习取得高泛化能力的关键。对
相比传统网络,泛在网中设备数量众多,种类繁杂,且许多数据源网络长期处于无人值守的工作状态。泛在设备的存储和计算能力相比传统网络也更加有限,当前,大多数数据源网络之间
数据统计显示,意外事故发生时,当事人几分钟之内的死亡率为50%;几小时内的死亡率为30%;受伤之后,在几星期内死亡的占20%。而且,立即死亡的当事人,绝大部分丧生于事故现场。可见
人脸识别凭借其友好、便捷、隐蔽性等优势成为生物识别领域的热点研究课题之一。经过近50年的发展,基于二维图像的人脸识别技术日趋成熟,但受限于二维图像的数据形式,二维人
集电力电子和智能控制于一体的无刷直流电机(Brushless DC Motor,BLDCM),得益于其电能转化效率高、使用寿命长及维护维修方便的优势,已广泛应用于工业控制、交通运输、家用电气
三维网格模型在计算机图形学中具有主导地位。它广泛应用于电影、游戏、计算机辅助设计、模拟仿真、艺术与历史、医药等众多领域。基于多边形网格模型的数字几何处理技术不断