论文部分内容阅读
近年来,随着Internet/Web技术的快速普及和迅猛发展,其为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给搜索引擎造成了相当的难度。因此,面向主题的智能检索系统应运而生并引起了研究者的极大重视。主题搜索引擎的爬行虫,称为主题爬行虫,它自动识别主题信息,快速、有选择地遍历与主题相关的区域并下载网页,为面向主题的用户查询准备数据资源。但是对于Web自身复杂的结构和主题爬行虫的实时性,如何提高主题爬行虫的主题识别能力?如何在较短时间内下载更多与主题相关的网页?如何穿过与主题无关的网页到达与用户兴趣主题相关的网页?这些是目前主题搜索的研究焦点。本文研究的内容是从理论和实验证明初始URLs的选择对于主题爬行虫在爬行初期具有重要的引导作用,最后提出有效可行的解决方案。首先,本文通过模拟Web链接结构的实验验证了:为主题爬行虫选择好的初始URLs,可以在较短时间内下载更多与主题相关的网页,尤其是在爬行的初期阶段。从而验证了本课题的可行性与价值。其次,本文在分析Web链接结构的同时结合网页内容的语义信息提出了基于用户本体的初始URLs选择的算法OntoSelectSeeds。该算法的特点是①对HITS算法中获取基础集(Base Set)的过程进行了改进。由于HITS算法纯粹基于链接分析来发现权威网页,在把根集(Root Set)扩展到基础集(Base Set)的时候完全不考虑网页的具体内容,导致了“主题漂移”的现象。因此,本文通过引入“用户本体”加权扩展用户的兴趣主题,然后使用该主题来修剪HITS算法中的基础集(Base Set),提高主题识别能力。②通过引入“完全二分图”的概念,把在“图中找连通分量”的问题转化为“在主题区域找完全二分子图”的问题,降低了算法实现的难度。③每次从Web上提取出一个完全二分子图后,得到Hset和Aset两个结点集合。使用它们回到Web中去找主题区域的其他部分,这样爬行虫在提高系统精确度的同时,保证了系统的召回率。④最后把Hset和Aset两个结点集合分别从中心页面集和权威页面集中移除,并重新对中心页面集和权威页面集进行排序,提取,删除操作,反复迭代直到选择了足够数量的初始URLs为止。最后,通过实验从2个方面评价了本文提出的初始URLs选择方法。①使用OntoSelectSeeds算法选择初始URLs与任意指定初始URLs,比较爬行虫所下载网页的PageRank值。②使用OntoSelectSeeds算法选择初始URLs与任意指定初始URLs,比较爬行虫在相同时间内下载网页的数量。经过实验结果对比,证明了本文提出的基于用户本体初始URLs选择是有效的。尤其是在爬行虫的爬行初期,效率远远高于任意指定的初始URLs。