论文部分内容阅读
随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成为关键。为解决搜索引擎遇到的诸多难题,已经产生了目录搜索引擎、通用搜索引擎、元搜索引擎、主题搜索引擎、人工智能搜索引擎等研究领域。本论文介绍了搜索引擎的组成及网络爬行器的主要原理,结合网页评价方法分析了基于主题策略的网络爬行器技术和网页隧道穿越技术,对比阐述分析了现有的网络爬行器的关键算法,如Pagerank算法、HITS算法、Fish Search算法、Shark Search算法、Best First算法、A*算法等。在现有的算法基础上,提出新的一种评价网页重要性的方法,将网页链接分析和内容相关度结合起来,构造网页核心度公式和网页辐射空间,并尝试将网页辐射空间与隧道穿越技术结合起来,并进行了数学推理证明,给出了几个关于搜索的定理证明,提出了一种基于主题策略的启发式搜索蛙跳算法。最后,利用一种通用的主题爬行器搜索策略性能评价系统进行了实验论证,对比分析了现有算法与启发式搜索蛙跳算法性能。本论文创新之处首先在于提出了新的网页辐射空间的概念,将传统的网页重要度计算方法PAGERANK与HITS进行结合,文本内容的相似度计算方法仍然作为分析评估网页内容的重要手段。网页核心度具有更加广泛的意义,相比单一的网页链接数计算或网页内容相似度计算,虽然计算量增加了,但是搜索范围却大大缩小了,搜索精度也相应提高,满足了主题搜索的性能要求。第二个创新工作是对网页隧道穿越算法的研究。因为局部信息可能被淹没在全局信息之中,传统主题爬行算法没有区分全局相关性与局部相关性,将一个训练好的分类器作用到比其更宽泛的主题网页上,通常会得到不相关的判断结果。本论文将网页隧道穿越分为两种类型:主题相关隧道穿越(connected tunneling)和主题非相关隧道穿越(non-connected tunneling),并提出了相应的算法。第三个创新之处是将启发式搜索A*算法应用到主题爬行中,结合网页辐射空间方法和网页隧道穿越技术进行了启发式函数的改进,提出了新的启发式搜索蛙跳算法。数学推理及实验结果表明,本论文提出的启发式搜索蛙跳算法在减少查找响应时间的同时,提高了查全率和查准率,使主题搜索引擎的性能有较大改善。