基于MapReduce的分布式聚类搜索引擎设计与实现

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:kampfing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当前的集中式搜索引擎集在处理海量数据时效率低下,并且由于网络数据量的不断增大,搜索结果数量众多又呈线状罗列,有很多与用户无关的信息充斥在其中,加上现有搜索引擎有在获取不动态网页信息时的不足,使得用户不能在很短时间内定位到所要查询的信息。因此,能够使用户快速、准确、全面地获取到所要检索的信息对用户来说已是十分迫切的需求。为了解决用户在一般搜索引擎上无法迅速定位所需的信息,以及集中式的搜索引擎在处理大数据集时效率低的问题。本文综合研究了搜索引擎,数据挖掘以及Hadoop分布式集群的相关内容,主要完成以下工作:1.设计并实现了一种基于分布式集群基础上的聚类搜索引擎,包括信息采集、信息预处理,对信息聚类处理和相应用户的检索需求展示检索结果。2.针对无法爬取全面信息的问题,本文基于元搜索引擎Nutch和脚本解释引擎Rhino,提出并设计了一种动静结合的网络爬取策略,可以在信息采集阶段全面的获取网络动态和静态网页信息。3.本文在聚类模块中对于Canopy-Kmeans聚类算法以及Canopy-Kmeans基于最大最小原则的改进算法由串行运行实现了Map Reduce的并行运行的模式,进而对检索结果进行聚类,同时也实现了Dirichlet和LDA等经典的聚类算法,对不同类型的信息库可选用不同的算法聚类,以达到相对较好的效果。4.在聚类标签生成的过程中,本文设计并实现的是自动产生和自定义结合的方式,使得聚类标签具有很好的可读性和合理性。5.在用户检索显示模块,本文用层次化的目录结构来显示搜索结果与聚类之间的关系,使得用户能够更高效更准确的对检索结果进行浏览。
其他文献
目前,“量子通信”技术是确保未来信息社会通信的机密性和隐秘性的关键技术。但是由于实际因素的限制和量子自身的脆弱性,“量子通信”技术在传输过程中产生误差的概率非常大,而且量子信息在传输后的测量也会出现失真等问题,从而有效地识别量子状态是很有难度的,需要提出方法以便能够较好地改善这个问题。本文提出了基于量子纠缠状态和计算机编码的纠缠验证方法,分别是基于量子纠缠状态和最小二乘法的计算机编码方法和基于量子
学位
图像融合技术是20世纪70年代后期被提出并发展起来的一门新技术,在军事和民用领域都有着广泛的应用。基于变换域的图像融合算法是目前研究的热点,在众多多尺度分析工具中,非下采
能源是人类社会和经济发展的重要物质基础,是提高人们生活水平的先决条件,而如今世界能源结构中处于主导地位的化石能源越发紧缺,能源危机已经成为一个无法回避的严重问题。与此同时,大量化石燃料的开采使用,也已经造成严重的环境问题。为了应对上述问题,世界各国纷纷采取提高能源效率和改善能源结构的措施,以实现可持续发展。其中,太阳能光伏发电以其独有优势,越来越受到世界各国的瞩目。本文以光伏发电系统作为研究对象,
随着网络技术的快速发展和计算机模拟人类思维的能力不断提高,各种信息大量涌现,人工管理信息已经远远不能满足日益增长的社会需求,如何使用计算机在看似凌乱的数据中快速找出潜
自二十世纪以来,计算机技术作为高新科技行业的代表,被应用到人类社会生产生活的各个环节,在许许多多重要的领域发挥着不可替代的关键作用。进入二十一世纪以来,计算机技术更
随着社会的发展,信息技术有了跨越式的进步,新型智能移动终端设备的存储能力和计算能力都有了很大的提高。在这样的大背景下,传统的键盘输入屏幕输出的单调人机交互方式越来
近年来起重机吊装在现代建筑工程中日渐普遍,起重机的路径规划问题一直备受关注,RRT随机采样算法成为理论研究中最为广泛的一种路径规划算法。然而,由于RRT算法在节点采样时
车载自组织网络中分布式网络应用的发展迫切需求高效路由策略的支持,尤其是单点到单点的单播和单点到多点的广播。而车辆节点的高速移动和受限于街道的分布特征导致全网拓扑
随着无线通讯技术的发展和随车装载设备功能和性能的不断提升,自治车联云(Autonomous Vehicular Cloud, AVC)的概念应运而生。车联云的建立是传统车联网(Vehicular Ad-hoc Ne
膜计算是一种分布式、并行计算模型,又被称为P系统。膜计算旨在从生命细胞的结构和功能以及组织、器官和高级生物组织中细胞群的协作中抽象出计算模型,具有分布式、极大并行性