面向主题爬行的在线网页分块研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wangyingadvance
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,建立在互联网之上的各种应用也层出不穷,其中最为成功的莫过于万维网(WWW)。万维网被称为“网中之网”,是互联网上最受欢迎的服务之一。它运用超文本技术为人们访问信息资源提供了巨大的方便,但也以非线性组织的构建方式使人们在信息海洋中彷徨,搜索引擎的出现改变了以上现状。目前流行的搜索引擎基本都是面向所有信息的,可以称之为通用搜索引擎,它的目的就是为了尽量满足所有用户的综合性搜索,但是网络资源是非常庞大的,通用搜索引擎不可能覆盖所有的网络资源。随着信息多元化的到来,这种通用搜索引擎显然不能满足特定领域用户的更深入的查询,他们对信息的需求并不是整体的、全部的而是针对特定领域和特定主题的。由于通用搜索引擎的精确率和召回率比较低,针对以上特定主题的查询需要一个分类更加精确的面向主题的搜索引擎。   人们的特定需求促使对主题搜索引擎的搜索精度越来越高,当前的主题搜索引擎基本都是以整个页面作为最小的单元来进行处理。然而,一个页面的内容是丰富的、繁多的,往往并不是一个单一的语义主题,而且网页中常常还会包含各种广告信息或是便于用户操作的导航信息等等。通常来说一个网页都是包含多个主题的,并且这些主题往往是互不相关。如果以整个页面为单元来进行主题的判断显然是不太合理的,这样会导致查询相关主题的查准率降低。针对当前网页中多主题的现象本文主要提出以下问题,并给出建议性的解决方法:   1、如何避免主题漂移和隧道问题。   2、在页面众多的信息中通过什么办法去识别出噪音信息,并将它们删除。   3、能否将页面划分成为一组信息块,并尽量保证各个信息块中的主题一致,而且各不重合。   4、分析当前网页分块算法优缺点,能否得到更加合理的启发规则去指导网页进行分块。   针对以上问题本文将网页分块思想引入主题爬行系统的主题判断中,并提出一个新的分块算法。该算法利用网页中的标签信息,视觉信息和链接信息(链接信息利用了提出的Pagelet概念)来将页面中的内容划分为没有噪音、主题一致、信息内容损失少的内容块,为下一步主题判断提供更有效的支持。   最后,将本文提出的算法应用于主题爬行系统中并与以页面为单位的主题爬行系统以及其他的分块主题爬行系统进行查准率的对比,并对结果进行分析。通过实验可以得到将分块思想运用于主题爬行中可以在一定程度上避免主题爬行中的多种问题(如主题漂移和隧道等),从而使得查准率更高,而且本文的分块算法也比传统的分块算法更加有效。
其他文献
Web服务互联互通的特点是Web服务集成和应用的基础,它支持开放、动态的互操作模式,可以大大降低系统集成的开销和复杂性,因此获得了学术界的高度重视和产业界的大力支持。Web
谱减法和改进谱减法是常用的语音增强方法,但无论是谱减法还是改进谱减法在处理过程中都使用的是傅里叶变换。由于傅里叶变换的单一转换方式不能较好的处理随机信号,所以对处
中医作为传统生命科学的一个重要组成部分,在疾病诊疗方面具有特色和显著的临床疗效。几千年的中医诊疗实践积累大量的临床数据和医学文献,这些数据包含宝贵的中医理论知识和
无线多媒体传感器网络(Wireless Multimedia Sensor Network, WMSNs),是在无线传感器网络(Wireless Sensor Networks, WSNs)的基础上,加入了一些功能强大的音、视频等多媒体采集设
近年来,随着无线通信、集成电路、传感器及微机电系统等技术的飞速发展和日益成熟,无线传感器网络(Wireless Sensor Network,WSN)应运而生,成为继因特网之后,对人类生活方式
在计算机视觉和模式识别领域,关于人脸的研究大部分都是针对正常人的,比如人脸不会受到任何疾病的影响,脸两侧基本上都是对称的。然而,在我们周围存在着一些面瘫患者,即两侧不对称
随着全球信息化程度的提高和国际互联网络的快速发展,无纸化办公彻底改变了过去纸质文档手工操作中的各种不便,如何保证信息安全是当前电子政务研究的热点问题,在电子政务中
自20世纪70年代以来,图像检索就已经成为了一个非常活跃的研究方向,并逐渐形成了两种主流的检索技术研究方向:基于文本的图像检索和基于内容的图像检索。但是图像底层特征与图像
学位
推荐系统作为一种信息过滤工具诞生至今已有20余年,推荐算法的应用场景亦早已不限于电商领域,转而在诸多关联人和信息的领域发挥作用。早期的推荐算法多采用单一的用户物品交