基于MapReduce的分布式搜索引擎研究

来源 :北京化工大学 | 被引量 : 6次 | 上传用户:jansan77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着资源爆炸式增长,搜索引擎已成为互联网用户获取信息的重要工具,传统搜索引擎多采用集中式架构,将搜索系统部署在一台服务器上,因此对服务器性能要求较高,且存在系统稳定性与可扩展性不高等问题;另外它采用关键词匹配模式,致使用户无法从海量数据中快速准确获取信息,在信息覆盖率、结果相关性和准确性方面都无法满足用户的更高需求。近年来,分布式计算理论被广泛的研究,基于分布式计算的搜索引擎应运而生,它克服了集中式搜索引擎的不足,通过扩展系统的服务器来实现大数据量的处理,同时引入用户个性化搜索模型,结合了语义分析等研究热点,已成为数据挖掘和智能信息处理领域的研究热点。通过对搜索引擎的工作原理、结构和分布式计算等相关技术的研究,本文对基于MapReduce分布式搜索引擎中的模型框架、数据处理流程、排序算法优化和主题爬虫进行了研究。主要研究工作包括以下几个方面:‘(1)通过研究分布式文件系统(HDFS),分析了MapReduce编程模型的工作原理,针对原架构中单—NameNode控制结构存在负载不均衡及性能瓶颈等问题,提出了基于多NameNode节点控制的结构;在MapReduce模型处理数据过程中,因中间结果中Key值过于分散或集中,造成了数据不均衡问题,导致Reduce端作业的执行时间过长或失败,本文通过在Map阶段处理后,引入数据平衡机制,从而提高了系统的性能并降低了系统的故障率。(2)PageRank算法采用的是平均分配权值的思路,且没考虑页面间主题相关性;本文通过引入主题相关度和时效性机制,使算法能同时兼顾链接间的主题相关性和页面的时效性;PageRank算法在计算网页权值时会产生大量的中间迭代数据,从而导致算法性能降低,本文采用了基于块结构算法划分网络的方法,有效地减少了中间迭代计算所产生的数据量,提高了算法的性能。(3)通过采用基于词频差异的特征选取方法和改进后的TF-IDF公式,改进了Context Graph爬虫搜索策略,综合考虑了网页不同部分的文本信息对特征选取,及各特征词类间权重和类中权重的影响,提高了主题爬虫的爬行效率。
其他文献
前馈神经网络是目前应用最广泛的一种神经网络模型,模糊感知器和Ridge Polynomial神经网络就是这样的两类前馈神经网络。本文对这两类神经网络的学习算法进行研究,分析各自算法
经过二十多年的发展,解决图像视觉特征与语义特征之间的差异问题已成为基于内容图像检索的研究热点。本文认为获取图像中不同目标的类别和相对位置信息是构建图像“语义特征”
本论文中基于特征点空间关系的图像检索算法是基于内容的图像检索算法的一个重要分支,是对图像底层特征进行深入研究而提出的一种图像检索算法。图像底层特征的提取和描述是基
在Google推出Android操作系统后,由于Android具有优越的体验效果和免费与开源特性,Android网络机顶盒越来越多的受到人们的欢迎。与此同时,空中鼠标技术也崭露头角,相比早期
无线传感器网络(WSN)是集通信技术、计算机技术、传感技术及网络技术为一体的智能自组织网络系统。系统能够感知和处理各种环境数据,实现人与物理世界的信息交互,在人类生活领域
多目标跟踪属于计算机视觉的一个方向,并与多个学科交叉形成了一个独立的领域。随着科技和技术的进步,多目标跟踪技术被广泛应用,例如由来已久的各种军事雷达跟踪系统和现如
软件服务外包在我国迅猛发展,潜力巨大,但软件服务外包行业一直存在着软件可靠性差和开发效率低的问题。因此高效率地开发正确、可靠的软件成为软件服务外包产业的迫切要求。由
随着无线通信技术、现代网络技术和嵌入式系统技术的快速发展,无线传感器网络的应用越来越受到人们的重视。在当前学术界和工业界中,无线传感器网络已经是一个热门的研究领域
树木在自然生长过程中常常伴随着节子的出现。节子是树木中较常见的一种现象,它不仅会破坏木材纹理构造的均匀性和完整性,使纹理质量下降,大大降低木材的档次,而且会影响木材表面
网络编码是是一个新兴技术,能够有效地解决无线传感器网络的节能问题,带来网络性能在诸多方面的增益。但是,由于编码的特点,网络编码系统更容易受到污染攻击的影响。安全问题