【摘 要】
:
云计算已发展成为目前计算机产业界和学术界关注的热点之一,Hadoop,作为当今最流行的云计算平台,也得到了越来越广泛的应用。与此同时,开放源代码搜索引擎包Nutch不仅能提供
论文部分内容阅读
云计算已发展成为目前计算机产业界和学术界关注的热点之一,Hadoop,作为当今最流行的云计算平台,也得到了越来越广泛的应用。与此同时,开放源代码搜索引擎包Nutch不仅能提供搜索引擎所需要的工具,还具有极好的扩展性,越来越多的学者围绕Hadoop和Nutch的结合展开研究,力图通过各种途径来提高分布式搜索的性能,本文正是在这些学者的研究成果上,开展了基于Nutch和Hadoop的分布式搜索引擎的研究和优化等相关工作。本文具体研究工作包括:Nutch框架、Hadoop分布式平台和分布式爬虫原理三个方面。首先,对Nutch框架和Hadoop分布式平台进行了分析和研究,仔细剖析了其架构及主要工作原理,如索引机制、插件机制、HDFS,Map/Reduce等核心技术。接着重点研究了爬虫技术,特别是分布式爬虫技术,通过分析和研究现有的基于Nutch的爬取机制,从改变数据结构入手,在任务分配算法中引入可扩展的哈希函数,从而解决了原有算法中负载均衡性和算法低效率的问题。在上述研究工作的基础上,本文设计了基于Nutch和Hadoop的分布式搜索系统,在所设计系统的索引模块中采用了可扩展的hash函数,在索引和搜索模块中利用Nutch的可扩展性,通过引入中科院的汉语词法分析系统ICTCLAS,有效地改进了Nutch对中文的支持力。最后,本文对所设计的搜索系统,在实验室构建的集群基础上,从多个角度进行了功能测试、性能测试和综合评估,测试结果不仅验证了所设计的系统的可行性和可扩展性,还验证了其性能的提升。
其他文献
下料问题广泛应用于各个行业,如金属制品业,家具业,钣金件加工业等。目前应用较为广泛的是二维矩形下料。二维矩形下料问题,是将板材材料加工成满足一定需求的矩形毛坯,在满
近年来,随着物联网技术的快速发展,作为其支撑技术之一的无线传感器网络技术也得到了迅速的发展。无线通信技术的迅速普及,使得异构系统之间的共存与干扰问题日益严重。随着ZigB
信息技术的高速发展极大地丰富了网络资源,为人们获取信息带来了方便。但是由于网络资源的逐渐增多,面对繁杂的信息,用户要找到所需的信息也变得更加困难,信息过载的问题便随
计算机技术发展给人们生活带来了革命性的改变,人们希望能够和计算机更加有效地沟通,因此,自然语言处理技术应运而生。词性标注作为自然语言处理中一个重要的基础性研究课题,具有
近年来,随着通信技术和信息技术的飞速发展,人们逐渐意识到一些数据集中型的应用。在这些应用中,数据不再是传统上基于关系模型的静态数据,而是以转瞬即逝的数据流形式出现。上述
医学图像三维可视化指的是将由高科技成像设备X Radio、CT、MRI扫描所获的2D切片图像重建出人体生理组织及器官的3D模型的过程。它在生物医学领域发挥着重要作用,像医学诊断
关系数据库关键词检索技术使得用户不需要了解任何SQL语言和底层数据库模式,就可以方便地检索到数据库中存储的信息,就像使用搜索引擎一样简单、便捷,因此关键词检索技术成为
云计算是一种新兴的商业计算模式,它通过Internet以服务的方式提供动态可伸缩的虚拟化资源。云资源监控系统是保障云平台正常运转的关键,旨在收集资源负载信息,是作业调度、
无线传感器网络被誉为未来最有发展前途的研究课题之一,正改变着人类与客观世界的交互方式。ZigBee是ZigBee联盟组织在IEEE802.15.4标准的基础上制定的一种低功耗、低速率、
近年来室内定位已成为定位领域研究的热点,提出的定位方法大多应用在室内二维平面。但随着经济的快速发展,城镇化率不断提高,城市内高楼林立,仅仅在室内二维平面定位已不能满