基于Nutch的分布式主题爬虫研究和实现

来源 :成都理工大学 | 被引量 : 3次 | 上传用户:superdog22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会已进入信息爆炸时代,如何通过搜索引擎精准获取有用的信息是摆在面前的一个重要课题。虽然用户采用通用搜索引擎可以检索出自己关心的内容,但也包含了许多无关信息,主题爬虫是主题搜索引擎重要的组成部分,为解决搜索引擎检索结果不够精准的问题,研究主题爬虫具有重要的理论价值和实际意义。  随着大数据技术快速发展,诸多大数据处理工具例如Hadoop、Spark被开发出来处理海量数据,利用分布式集群来完成以前需要花费大量时间和内存的计算任务。本文对主题爬虫相关技术、开源搜索引擎Nutch和基于learning automaton的主题爬行算法进行了研究后,构建了一个基于改进learning automaton算法的分布式主题爬虫。该爬虫对Nutch的Fetch模块和Parse模块进行了改造,引入多种种子网页采集策略,使得爬虫的主题爬行具有了自适应能力,并且提高了爬虫的准确率、召回率和抓取效率。  最后,对本文提出的基于Nutch分布式主题爬虫算法的性能进行了仿真实验,结果表明在保证准确率的前提下,所构建的分布式主题爬虫能够更高效地抓取到更多与主题相关网页。
其他文献
目标跟踪是计算机视觉的一个重要分支,融合了图像处理、模式识别、人工智能、自动控制以及计算机应用技术等相关领域的先进技术和研究成果。实现目标跟踪的关键在于完整地分割
无线传感器网络是一种新的信息获取和处理技术,在军事、工业控制、环境监测、医疗救助等领域都有广泛的应用前景。在无线传感器网络中,节点的能量极其有限,且在很多情况下不
协作可以定义为若干个任务在一些机器上进行加工"如何按时间或成本对机器和物力等资源进行安排"使某些目标函数达到最优。在车间控制智能应用领域,由于现代调度的复杂性,而且
网络编码技术以其能大幅度改善网络性能而受到业界研究人员的广泛关注。无线网络编码技术COPE是首次面向无线单播通信模式下的网络编码方案。与已有的几种网络编码方案相比,CO
随着软件规模的不断扩大,软件的复杂性越来越高,对软件的测试越发显得重要,软件测试成为软件质量控制中的关键过程。软件测试的性质和要求使得测试的自动化和规范程度越来越
本文的主要工作是研究在PMC模型下大型多机系统和计算机网络系统的故障诊断算法问题。文中提出了三种新的故障诊断算法。概率性矩阵诊断算法是一个完全基于矩阵与概率计算的
随着社会的发展,人们希望能够互动、随心所欲地选择自己喜欢的媒体资源的意愿逐渐增强,视频点播技术应运而生。但由于涉及的技术和产品众多,交互式视频服务仍然是一个比较复
基于构件的软件开发提出复用软件构件,通过可复用构件来设计与构造软件系统。这种开发方式不仅可以提高软件质量和生产率,还可以降低软件开发和维护的成本。然而随着软件构件
自抗扰控制器(ADRC)由PID思想发展而来,同时又突破了PID技术的局限性。ADRC通过对模型不确定因素和外扰进行跟踪并给予实时补偿,使得控制系统对外扰和不确定因素均有较好的适应能力,从而能够有效地控制多种工业上较为难以控制的对象,同时表现出极强的鲁棒性和抗干扰性。但是自抗扰控制器因追求卓越的控制品质而滋生了众多参数,却又难以调节,从而限制了自抗扰控制器的工程应用。目前优化整定自抗扰控制器的众多
内存数据库(MMDB)是近年来发展较为迅速的一种数据技术。由于目前互联网技术以及大数据的发展,对于数据的响应速率提出了越来越高的要求,传统的磁盘数据库已经无法满足一些新