基于遗传算法的主题爬虫搜索策略研究

来源 :湖北工业大学 | 被引量 : 11次 | 上传用户:z992070002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,随着互联网的急剧膨胀,传统的搜索引擎需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或少的无关信息。在专业化需求日益增长的今天,主题搜索引擎以其分类细致精确、数据全面准确的特点迅速流行起来,而主题搜索引擎的关键技术——主题爬虫的搜索策略就成为了近几年的研究热点。本文将遗传算法应用在主题爬虫的搜索中,引入遗传算法来改进爬虫的搜索策略,利用遗传算法高效、并行、全局寻优的特点,提高爬虫的搜索效率。本文的研究内容主要有以下两个方面:根据网络特点改进传统的遗传算法;通过实验验证改进后的效果。基于遗传算法的主题爬虫搜索策略,是将待检索的问题提交给通用搜索引擎,对其返回的结果集进行处理,选择一定数目的URL作为初始群体;通过交叉操作,提取初始群体中URL对应页面包含的所有超链,产生出大量新的个体,再对所有超链进行相似度预测,选出相关度高的种子作为交叉结果;通过变异操作,引入目录型网页,扩大搜索范围;通过选择操作,对遗传之后的结果进行处理,选出相关度高的个体作为新一代的种子进入新一轮的遗传;通过爬虫终止搜索条件,来结束爬虫的搜索。本文在构造初始群时,将待检索的问题提交给通用搜索引擎Google,对其返回的结果集选择前n个URL,再扩展、去重、计算Authority和Hub值,重点是引入了Alexa排名,然后依据综合排名值选择初始种子集合。在交叉过程,根据超链的锚文本有效地预测对应的页面与主题的相似度。在变异阶段,根据目录型网页包含的大量链接和详细的分类来寻找相关网页。本文设计了一个实验,来验证遗传算法在爬虫搜索中应用的可行性以及改进后的遗传算法的效果。在实验中,本文采用GA、HITS、Best-First三种算法分别对给定主题进行搜索,将搜索到的网页根据向量空间模型算法计算其与主题的相关度,再分别统计三种算法搜索到的相关的网页数。实验结果表明,本文的基于遗传算法的爬虫搜索策略在某种程度上具有一定的优势。
其他文献
近几年DDoS攻击的危害越来越明显,DDoS攻击直接对经济、军事、国土安全等方面造成巨大影响。作为现代互联网中重要的防护屏障,防火墙在保护网络的安全性方面起着不可估量的作
本论文的主要工作是研究复杂背景下弱小目标的先跟踪后检测算法。主要研究对象是视觉场景中的运动小目标。首先,针对复杂多变的背景,提出了基于帧间差分和背景建模的背景处理
计算机网络系统中的各个设备都会产生日志来记录自身行为或相关的网络事件,对于维护系统状况、监视系统活动及维护系统安全至关重要,是反映网络安全状况的重要数据源之一。如
近年来,移动Adhoc网络(MANET)已有广泛的应用。移动自组网是在没有中心基础设施情况下由一些移动用户自组织形成的临时性多跳无线移动网络。由于自组织网络中的节点依赖于电池
目前,由于Internet技术的迅速发展,Web应用的范围越来越广泛。但是,在现有的Web应用系统中,普遍存在着程序可重用程度低、维护工作繁琐、应变能力薄弱等不足。随着Web应用的
作为复杂网络的一种,社会网络的应用变得越来越普及。社会网络中的链接预测是最近几年社会网络分析的一个引人注目的研究热点。链接预测的目的旨在寻找那些实际存在,但是由于
在结构化、半结构化和非结构化的数据集合中发现数据之间的关联是数据空间的一个重要研究方向。已有的关联发现研究主要有两种方法:一种是使用Apriori算法发现符合某一关联规
在全局已知环境下,用传统蚁群算法进行机器人路径规划具有收敛速度慢,容易陷入局部最优等缺点。为此,本文首先根据对真实蚂蚁的研究成果,提出了一个基于具有感觉适应功能蚁群
位置服务顾名思义指以请求节点位置数据为基础而为其提供的服务。因为请求节点的位置数据以及查询信息完全暴露给服务提供商,若被某些恶意的服务提供商所利用,将给用户的人身
随着计算机技术、计算机网络技术、多媒体技术的快速发展,特别是Internet的广泛普及,基于网络的学习方式获得了迅猛的发展。网络教学综合了多种教学模式的优势,已经成为二十
学位