论文部分内容阅读
随着互联网的蓬勃发展,建立在互联网之上的各种应用也层出不穷,其中最为成功的莫过于万维网(WWW)。万维网被称为“网中之网”,是互联网上最受欢迎的服务之一。它运用超文本技术为人们访问信息资源提供了巨大的方便,但也以非线性组织的构建方式使人们在信息海洋中彷徨,搜索引擎的出现改变了以上现状。目前流行的搜索引擎基本都是面向所有信息的,可以称之为通用搜索引擎,它的目的就是为了尽量满足所有用户的综合性搜索,但是网络资源是非常庞大的,通用搜索引擎不可能覆盖所有的网络资源。随着信息多元化的到来,这种通用搜索引擎显然不能满足特定领域用户的更深入的查询,他们对信息的需求并不是整体的、全部的而是针对特定领域和特定主题的。由于通用搜索引擎的精确率和召回率比较低,针对以上特定主题的查询需要一个分类更加精确的面向主题的搜索引擎。
人们的特定需求促使对主题搜索引擎的搜索精度越来越高,当前的主题搜索引擎基本都是以整个页面作为最小的单元来进行处理。然而,一个页面的内容是丰富的、繁多的,往往并不是一个单一的语义主题,而且网页中常常还会包含各种广告信息或是便于用户操作的导航信息等等。通常来说一个网页都是包含多个主题的,并且这些主题往往是互不相关。如果以整个页面为单元来进行主题的判断显然是不太合理的,这样会导致查询相关主题的查准率降低。针对当前网页中多主题的现象本文主要提出以下问题,并给出建议性的解决方法:
1、如何避免主题漂移和隧道问题。
2、在页面众多的信息中通过什么办法去识别出噪音信息,并将它们删除。
3、能否将页面划分成为一组信息块,并尽量保证各个信息块中的主题一致,而且各不重合。
4、分析当前网页分块算法优缺点,能否得到更加合理的启发规则去指导网页进行分块。
针对以上问题本文将网页分块思想引入主题爬行系统的主题判断中,并提出一个新的分块算法。该算法利用网页中的标签信息,视觉信息和链接信息(链接信息利用了提出的Pagelet概念)来将页面中的内容划分为没有噪音、主题一致、信息内容损失少的内容块,为下一步主题判断提供更有效的支持。
最后,将本文提出的算法应用于主题爬行系统中并与以页面为单位的主题爬行系统以及其他的分块主题爬行系统进行查准率的对比,并对结果进行分析。通过实验可以得到将分块思想运用于主题爬行中可以在一定程度上避免主题爬行中的多种问题(如主题漂移和隧道等),从而使得查准率更高,而且本文的分块算法也比传统的分块算法更加有效。