基于分布式计算的搜索引擎关键技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:shengaogao3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的高速发展,网络上的数据信息量急剧膨胀,有“互联网窗口”之称的搜索引擎的计算量及存储量不可同日而语。面对如此庞大且高速增长的海量数据,传统集中式搜索引擎暴露出诸多不足,主要表现在时效性差,可扩展性低,故障率高等方面。面对上述难题,且随着分布式计算技术不断发展成熟,分布式搜索引擎应运而生。本文针对分布式搜索引擎,剖析了分布式计算的三项关键技术,即分布式文件系统、Map/Reduce编程模型、分布式结构化数据存储。结合传统搜索引擎主要模块遭遇的瓶颈,阐述了分布式网络爬虫及Map/Reduce构建倒排索引的原理及应用。此外,对搜索引擎涉及的关键技术提出了部分改进算法及优化设计,并进行相应的实验对比测试:为了在最短的时间内抓取价值最高的网络资源,提出了多优先级多队列网络爬虫,其基本思想即URL价值越高,优先级就越高应优先抓取;三叉Trie树在分词模块中的应用,极大地降低了分词算法的空间复杂度;基于用户习惯及关键词的相关度,提出了静态缓存和动态缓存相结合的多级缓存索引,提高了检索效率及用户体验。最后,本文基于Hadoop分布式计算框架及Lucene检索引擎,部署了一个4节点的分布式搜索引擎系统。将改进算法及优化设计应用于相应关键模块,均取得了较大的效率提升。
其他文献
伴随着电子计算机以及网络技术的飞速发展,人们逐渐习惯于在网上进行交易。在这样的背景下,网上拍卖快速发展起来,成为电子商务的重要组成部分。同时,作为云计算中的关键技术,MapR
随着科学技术的不断发展与进步,人机交互正朝一个更加简单化和人性化的方向发展,而手势识别是人机交互的一种重要方式。本文借助Kinect体感设备研究了基于深度信息的手势识别
在计算机网络应用、通信技术和信息技术快速发展的背景下,使用电子政务进行自动化办公、无纸化办公等已成为政府部门办公的主流手段和趋势,对各级组织管理水平的提高助益很大
信息推荐作为解决信息过载的重要手段之一,得到了广泛的研究和应用。但当前推荐系统在动态特征方面研究不足却制约着它的发展。传统的推荐系统研究是基于用户和物品之间的关系
IEEE802.15.4标准是为速率低的无线个人区域网络独特设计的。ZigBee网络是基于IEEE802.15.4无线传感器的一门新技术,最近几年,由于ZigBee的特点优势,广泛应用在工业、农业、车载
随着物联网的发展,室内环境中的基于位置的服务(Location Based Service,LBS)备受关注,同时也推动了室内定位技术的进一步发展,使其成为定位领域的一个重要的研究方向。通过
随着计算机技术的发展,在生活的各个方面也对计算机化提出了更多的要求,这就促使了嵌入式系统的进一步发展。  本论文选择嵌入式下的文件系统这一课题进行研究和实现。工作包
摘要:随着微阵列技术的广泛应用,越来越多的基因表达数据被获取,如何从海量的数据中提取有生物学意义的信息,是目前生物信息学的一个重点研究方向。功能相近的基因其表达模式
在Internet快速普及的进程中,电子商务等信息呈现服务正在以难以置信的速度急速发展。客户面对这些信息呈现服务中的众多选择,从中挑选出自己真正需要和喜欢的项目已成为一个重
随着信息技术的不断发展,世界已逐渐变成一个信息的海洋,人们被信息浪潮所淹没,如何实现大量信息的自动分类,并且从这些信息中自动分类出有用的信息是一个重要的研究领域。文本作