搜索引擎并行计算框架的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：chshlu

【摘要】

：

随着技术的日新月异，各种新思想在搜索引擎领域不断的提出。由于搜索引擎所需要处理数据量极大且这些数据更新速度极快，传统的串行计算已不能满足搜索引擎中的计算需要，因此大规

【作者】

：

孟实

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

搜索引擎并行计算框架模糊去重算法数据处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着技术的日新月异，各种新思想在搜索引擎领域不断的提出。由于搜索引擎所需要处理数据量极大且这些数据更新速度极快，传统的串行计算已不能满足搜索引擎中的计算需要，因此大规模搜索引擎中无一例外的采用了并行的方式。而在这种前提下并行编程的高难度，成了新思想应用到实际中的主要障碍,为此Google提出了一种MapReduce的方法来解决这个问题。　　本课题研究的目的在于实现了一种通用的并行架构模型——MapReduce模型，使得开发人员在开发新的并行程序时可以脱离繁琐的并行编程，降低其复杂度，提高新思想应用的速度，并在MapReduce模型的基础上加以扩展。　　本课题对搜索引擎中所需要的并行计算进行了分析，并在分析传统并行算法的基础上，实现并扩展了MapReduce框架。本文主要研究内容如下：　　(1)分析搜索引擎中并行运算，根据其特点得到需求。　　(2)分析传统并行算法，结合其特点分析MapReduce思想，并根据其思想设计实现了基于C++的MapReduce系统　　(3)在网页内容的模糊去重算法应用中发现MapReduce架构在Mapper结果的归并过程调度上的不足，并设计实现了相应的解决方案，在原有的MapReduce框架的基础上进行了扩展。　　(4)根据实际应用，分析MapReduce实际效率。　　通过大规模试验，最终我们发现：在实际应用中随着MapReduce框架的引入，用户所编写并行程序的代码量大幅度降低，在一些应用中用户所需要编写的代码量由原来的数百行降低为几十行。同样开发时间大幅度的缩短，在一些开发中，开发时间从原来的几周到几个月缩短到几天到几周，在某些情况下甚至缩短为一天。

其他文献

基于谱域-空间特征的半监督高光谱图像分类方法研究

高光谱遥感图像分类是图像研究领域的新热点问题，具有广泛的应用前景。随着近年来关注度的持续上升和研究投入的不断增加，已经取得一定的技术成果。然而，由于高光谱遥感图像本身

学位

半监督高光谱遥感图像目标像素点分类标准谱域-空间特征

动漫图片的图像修复技术研究

图像修复是根据一定的规则对图像中的信息缺失的部分进行填充修复的算法，要求修复后的图像能够尽量与图像中原有的部分保持连续，平缓过渡。图像修复是图像处理中的一个重要课题

学位

动漫图片图像修复信息提取算法结构连通性

开放分布系统中动态资源发现和组合研究

在对等网络、网格及服务计算等系统中，许多分布在不同组织和位置的参与节点需要共享其他节点的资源或协作共同提供服务，这些系统称为开放分布系统，它们都是建立在Internet基础设

学位

计算机网络网络服务资源共享语义标记

基于深度置信网络的图像超分辨率重建

图像超分辨率重建是计算机视觉领域中一个研究热点，有广阔的应用前景和实际应用价值。它主要关注在硬件设备性能受限的情况下，从所获取的单幅或者多幅图像中，设计算法尽可能提高

学位

图像处理超分辨率重建技术深度学习算法

人类行走步态模型及特征提取方法研究

步态分析与评价是人类保健和康复的重要研究内容。随着人类老龄化的逐渐加剧，老人意外跌倒已经成为老人致残的“杀手”。对人类步态进行深入分析和科学评价已经成为很多发达国

学位

人类行走步态模型特征提取步态分析康复训练

基于Symbian平台的移动流媒体客户端的研究和实现

随着移动通信技术的飞速发展,移动通信的网络带宽不断增加,移动终端的处理能力也在迅速提高,通过移动通信网络提供流媒体服务已经成为可能。全球移动用户的数量非常庞大,截至

学位

移动流媒体Symbian平台客户端MPEG-4

藏文信息处理平台的研究与应用

随着计算机信息处理技术及计算机应用的日益普及，少数民族文字的计算机信息处理也开始成为计算机应用领域的一个重要研究方向。藏语是少数民族的一大语系，藏族人民有着两千

学位

藏文信息处理平台字符集标准输入法

基于海明距离的DNA序列中相似性重复片段查找技术研究

生物信息学是随着人类基因组计划的启动、基因序列和蛋白质序列等生物数据迅猛增加而逐渐兴起的一门通过综合运用数学、计算机科学和信息科学来研究生物系统中信息现象的科学

学位

DNA序列相似性重复片段查找模式单元数组海明距离边界索引生物信息学

基于MVC的协同任务调度软件模型研究

以协同工作平台服务系统为背景,为提高协同任务调度的柔性及软件的构架性能,对协同任务调度领域模型及软件构架模型进行研究。研究协同任务调度的概念框架,明确提出任务调度

学位

协同任务调度MVC构架AW-MVC模型元过程模型成员指派算法任务排序算法Ajax技术

基于支持向量机的用户行为异常检测方法研究

异常检测作为入侵检测的一个分支，越来越受到人们的重视。大部分入侵检测系统对于内部攻击的检测效率很低。内部攻击者比外部攻击者会对系统造成更大破坏，而且其行为更难捕捉。

学位

支持向量机用户行为异常检测方法入侵检测技术

搜索引擎并行计算框架的设计与实现

与本文相关的学术论文