论文部分内容阅读
传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,随着互联网的急剧膨胀,传统的搜索引擎需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或少的无关信息。在专业化需求日益增长的今天,主题搜索引擎以其分类细致精确、数据全面准确的特点迅速流行起来,而主题搜索引擎的关键技术——主题爬虫的搜索策略就成为了近几年的研究热点。本文将遗传算法应用在主题爬虫的搜索中,引入遗传算法来改进爬虫的搜索策略,利用遗传算法高效、并行、全局寻优的特点,提高爬虫的搜索效率。本文的研究内容主要有以下两个方面:根据网络特点改进传统的遗传算法;通过实验验证改进后的效果。基于遗传算法的主题爬虫搜索策略,是将待检索的问题提交给通用搜索引擎,对其返回的结果集进行处理,选择一定数目的URL作为初始群体;通过交叉操作,提取初始群体中URL对应页面包含的所有超链,产生出大量新的个体,再对所有超链进行相似度预测,选出相关度高的种子作为交叉结果;通过变异操作,引入目录型网页,扩大搜索范围;通过选择操作,对遗传之后的结果进行处理,选出相关度高的个体作为新一代的种子进入新一轮的遗传;通过爬虫终止搜索条件,来结束爬虫的搜索。本文在构造初始群时,将待检索的问题提交给通用搜索引擎Google,对其返回的结果集选择前n个URL,再扩展、去重、计算Authority和Hub值,重点是引入了Alexa排名,然后依据综合排名值选择初始种子集合。在交叉过程,根据超链的锚文本有效地预测对应的页面与主题的相似度。在变异阶段,根据目录型网页包含的大量链接和详细的分类来寻找相关网页。本文设计了一个实验,来验证遗传算法在爬虫搜索中应用的可行性以及改进后的遗传算法的效果。在实验中,本文采用GA、HITS、Best-First三种算法分别对给定主题进行搜索,将搜索到的网页根据向量空间模型算法计算其与主题的相关度,再分别统计三种算法搜索到的相关的网页数。实验结果表明,本文的基于遗传算法的爬虫搜索策略在某种程度上具有一定的优势。