基于MapReduce的信息检索相关算法并行化研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户：nisshei5zd

【摘要】

：

随着Internet的日益普及与迅速发展,互联网上的信息量呈几何级数增长,信息爆炸已成为当今网络时代的特征之一。作为访问互联网的重要入口,搜索引擎在帮助用户从浩如烟海的Int

【作者】

：

肖韬

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2012年期

【关键词】

：

信息检索并行计算大规模海量数据 QUBIC 频繁项集挖掘 MapReduce Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的日益普及与迅速发展,互联网上的信息量呈几何级数增长,信息爆炸已成为当今网络时代的特征之一。作为访问互联网的重要入口,搜索引擎在帮助用户从浩如烟海的Internet中快速准确地获得所需信息方面起到了日益重要的作用,人们的生产生活已经越来越依赖搜索引擎。搜索引擎检索的对象是整个互联网上的全部数据,包括网页、图片、音乐、视频、FTP资源等。这些海量的数据对信息检索系统的高效运行提出了新的挑战：一方面,单台计算机的处理能力受到CPU时钟频率、内存容量、磁盘读写速度和网络带宽等因素的制约,无法在理想的时间内独自处理全部的数据；另一方面,这些海量数据并非存储在单台计算机上或者单个数据库中,而是分布在整个Internet上,这就需要成千上万台计算机以“相互合作”的方式对这些海量数据进行处理。因此,为搜索引擎设计能够高效地处理海量Internet数据的并行算法成为了学术界和工业界共同的研究方向与追求目标。在过去的数十年中,并行计算领域的研究取得了长足的进步,一些经典的并行计算平台相继出现,如MPI、OpenMP、OpenCL、CUD A等,特别是Google于2004年提出的MapReduce并行计算模型,以其良好的可扩展性、可靠性和易用性,为并行计算提供了简单、高效的计算模型和运行环境,降低了并行计算从理论向应用转化的难度,为并行计算的实际应用提供了一个简单易用的平台。信息检索领域的传统算法发展至今已日趋成熟,然而,有些算法并非是专为并行环境设计的,面临着无法直接处理大规模的海量数据或者无法在有效的时间内完成对海量数据的计算的窘境。因此,如果能够将这些算法加以改造,使其能够分布在多台计算机上并行地运行,则可以大大提高对海量数据的处理效率,更加快速地响应人们的搜索需求,改善用户的搜索体验。在信息检索领域中,查询推荐(Query Suggestion)与网页排序(Page Rank)是两项重要的研究内容：查询推荐可以帮助用户更加精确有效地查询并节省搜索时间,而网页排序则可以改善搜索质量、帮助用户更容易地找到所需的网页。如果能够对这两个领域中的一些串行算法进行并行化改造,使其能够并行地运行于计算机集群中,则能够有效提升搜索引擎对大规模数据的处理能力,加快搜索引擎在查询推荐和网页排序方面的更新速度,提高用户对检索的满意度。本文研究了查询推荐领域的QUBIC算法和基于频繁项集挖掘的网页排序算法,以对海量Internet数据的并行处理作为研究背景,基于MapReduce并行计算模型对QUBIC算法和基于频繁项集挖掘的网页排序算法进行了并行化改造,使得QUBIC算法和基于频繁项集挖掘的网页排序算法能够运行于MapReduce并行计算框架之中,并利用Hadoop并行计算软件框架实现了一个原型系统。具体而言,本文的主要研究工作包含以下方面：(1)对QUBIC算法进行基于MapReduce模型的并行化改造,提出了数据分布和并行计算的具体方法,包括：搜索引擎日志文件的分布存储,Query-URL二部图的构造,Jaccard相似系数的计算,QAG的生成,QAG中连通分量的计算以及对Query的排序。(2)对传统的SON频繁项集挖掘算法进行基于MapReduce模型的并行化改造,提出频繁项集并行挖掘的PSON算法,并将其应用于对频繁URL的挖掘。在计算出搜索引擎返回结果中关联性较大的一组URL后,按照其重要程度降序呈现给用户。本文在Hadoop并行计算平台上实现了本文对原算法进行并行化改造的思想,并进行了实验。实验表明,本文提出的对相关算法进行并行化改造的方法是行之有效的,并且具有良好的可扩展性能和加速比性能。最后,本文实现了一个原型系统,从整体上演示了QUBIC并行算法和频繁URL并行挖掘算法的运行效果,验证了这两类算法的正确性和有效性。

其他文献

支持飞机设计的计算机文件配置管理系统设计

CONFIG程序是支持飞机设计的工程信息集成管理系统中的一个主要组成部分，主要对飞机设计过程中产生的计算机文件进行管理。它向用户提供文件的发放、提取、校验、批准、版本管

学位

产品数据管理文档管理工作流管理产品结构管理项目管理

IPSec分析及虚拟专用网设计

随着政府和企业越来越依赖于计算机网络所存储的数据信息,计算机网络的安全也就日益显示出了其的重要性.尽管人们多年来一直把计算机安全作为活跃的研究领域,但是直到现在,随

学位

网络安全虚拟专用网安全策略安全联盟

主动实时数据库模型的研究

事件是数据库主动机制的关键部分,而现有的事件在结构上对刻画事件发生时的粒度过于粗糙,因而若原子事件发生,将引发包含此原子事件的复合事件之间时的冲突,严重影响了ARTDB

学位

主动实时数据库触发器事务模型局部安全性

基于Jini模式的分布式电子化综合消费服务集成系统架构研究

该文开篇先介绍该论文研究的问题的意义,然后第二章介绍相关技术.第三章对系统架构从功能层面和代理分组层面上进行介绍.第四章对系统架构的几个关键性技术进行补充性介绍,并

学位

jini电子化消费服务集成系统架构

基于SVM决策树的增量式文本层次分类研究

文本分类(Text Classification, TC)是指把文本归到预定义的一个或多个类别中,这一任务在众多信息管理系统具有广泛的需求。目前已经出现了许多分类算法,如支持向量机、朴素

学位

文本分类多分类SVM决策树增量学习层次分类

基于集群的VOD设计

随着多媒体和网络通信技术的发展，视频点播逐渐成为一个具有广泛市场潜力的应用技术。一个视频点播系统能够根据用户请求向用户提供实时的高清晰度的多媒体节目。它的特点就是

学位

视频点播集群视频流调度请求允许策略

CMOS集成电路库单元内布线算法研究

该文通过对详细布线技术特别是单元内布线技术的分析和总结的基础上提出了一个库单元内布线的总的算法流程,并针对为提高电路性能,在库单元布线中一般尽可能少用多晶硅布线,

学位

集成电路线网拓扑布线设计规则

基于布尔过程论的HDL波形表示方法与仿真

随着VLSI技术的迅速发展及广泛应用，VLSI系统对设计的复杂性、设计的可靠性和开发周期都提出了更高的要求。硬件描述语言为数字系统的设计和存档提供了一种具备形式化、层次化

学位

布尔过程论Verilog HDLVHDL波形延迟竞争冒险仿真

编译型VHDL模拟系统的研究

该文深入研究模拟技术,将编译型实现算法与事件驱动调度算法结合在一起,构造了一个面向对象的VHDL模拟器,有效地提高了模拟的效率,所提出的新思想和新方法主要有如下几个方面

学位

编译型模拟核心库嵌入式系统事件驱动模拟器

复杂信息系统网络脆弱性分析与仿真验证技术研究

随着社会信息网络化程度的提高,云平台、网格等大规模分布式网络技术不断涌现,信息基础设施面临着日益增多的安全威胁。为了加强对信息基础设施的安全保障,各国政府和安全组

学位

复杂网络级联故障分布式低速DoS攻击生灭模型随机游走算法网络实验靶场

基于MapReduce的信息检索相关算法并行化研究与实现

与本文相关的学术论文