定题爬虫搜索策略研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:gegengwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,专业搜索引擎应运而生,以提供分类更细致精确、数据更全面深入的网络搜索服务。在专业搜索引擎中,定题爬虫以何种搜索策略访问Web,以提高效率,是近年来专业搜索引擎研究中的热点问题之一。因此本文工作的核心是对定题爬虫的搜索策略进行研究。本文在深入分析三类经典定题爬虫搜索策略优缺点的基础上,提出了一个基于本体的定题爬虫系统模型,对模型结构中的三个主要组成部分:主题相关性判定策略、URL队列优先权排序策略、本体管理进行了研究分析和方法改进。在主题相关性判定方面,通用的基于关键词的主题相关性判定策略精确度不高,为此,本文提出了基于语义的主题相关性判定策略。该策略从页面入手,将页面中与主题概念相关的关键词(主要指其同义词、上下义词、关系词)按不同的主题贡献度聚集成同一概念,从而能够有效地计算基于语义的主题相关性。实验表明该主题相关性判定策略比基于关键词的主题相关性判定策略有更高的精确度。为了能既精确的预测链接价值又避免“主题漂移”问题,本文提出了两种改进的URL队列优先权排序策略:一种是链接预测爬行策略,该策略先进行基于语义的主题过滤,再进行基于锚文本相关性的链接过滤;另一种是混合预测爬行策略,该策略先将父页面的语义相关度与锚文本的语义相关度综合起来,再对待爬行的URL进行排序。这两种策略都综合了内容评价和链接评价,实验表明两种策略各有优劣,可以根据不同的需要选择不同的策略。为了能跳出普通定题爬虫策略普遍存在的局部最优的缺点,本文引入了本体管理,除了设计有本体构建模块外,还设计了本体更新模块,通过机器学习算法,能自动根据爬行过程中在线学习的信息来进化原始本体的权值,使搜索位置在距离相关页面集较远时也有较好的性能。最后本文设计了一个定题爬虫原型系统――Focused Crawler,对本文提出的算法进行测试、分析、比较,并评价各个算法的优劣。
其他文献
电信增值业务的发展日益要求快速而灵活地提供各种丰富多彩的新业务。综合业务接入网关(ISAG)在此背景下应运而生,极大降低了CP(Content Provider)/SP(Service Provider)开发
“一站式”服务平台是近年来国内电子政务研究与应用的热点,而实现电子政务“一站式”服务平台的关键是要解决跨部门之间的应用集成问题和数据交换问题。就其实现技术而言,面向
现代科学研究和应用领域的需要正朝着高性能、大数据量的方向发展,由于Internet中存在着数据共享和协同的问题,使很多信息系统信息分散、数据难于查找,并且相互孤立,难于连通。数
随着大规模数据存储技术、信息技术和网络技术的发展,人们正陷入数据泛滥、知识贫乏的境地。为满足日益增长的信息需求,聚类分析作为一种主要的数据挖掘技术已经应用到各种领域
布尔函数作为现代密码体制中的一个重要组件,其密码学性质的优劣直接影响到整个密码系统的安全性。近年来,代数攻击的密码分析手段越来越受到广大密码研究学者们的关注,已然成为
随着生活水平日益提高,人们越来越关注自己工作和居住场所的安全问题。视频监控系统以直观、方便、可记录、可查询等特点渐渐受到青睐,越来越多的视频监控系统应用于安全领域,如门禁系统、考勤系统以及身份识别系统等等。视频监控系统可以让管理人员在控制室中观察到前端防范区域内所有人员活动情况并做记录,为保安系统提供实时的图像信息。在实际应用中,较好的实时性和图像质量,较低的带宽占用以及带宽适应能力是监控系统的主
随着企业信息化的深入和计算机技术的发展,企业业务模式发生了巨大变化,企业应用集成(EAI,Enterprise Application Integration)越来越成为各个企业所关注的焦点。Web服务作
本文研究的主要内容包括:1.分析几种常用的语音识别方法;2.提出了基于高维球体分割的语音识别新方法。 首先,本文介绍了语音识别的基本原理、分类、语音信号的预处理和特征参
神经网络集成是目前国际机器学习和神经计算界的一个相当活跃的研究热点,对该问题的研究不仅有助于科学家对机器学习和神经计算的深入研究,还有助于普通工程技术人员利用神经
我国是世界上山洪地质灾害最严重的国家之一,全国仅大大小小的滑坡、泥石流灾害危险点就有百万处以上,每年还会出现大约十万处新的危险点。近十年来,山洪地质灾害每年造成人员伤