一种改进Best-First算法的主题爬虫搜索算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:chyenu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
飞速发展的互联网带来了海量的信息资源,用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时,通用搜索引擎难以为其提供满意的结果。为了打破通用搜索引擎的这一局限性,研究具有专业特点的智能化搜索引擎成为一种趋势,因而顺理成章的诞生了垂直搜索引擎。垂直搜索引擎中的主题爬虫犹如人的心脏一样,起着非常基础与关键的作用。主题爬虫按照用户给定的目标主题,智能化的搜索Web,快速、准确地提取出主题相关页面,满足用户所需。研究高效的主题爬虫对于提高垂直搜索引擎的性能有着非常重要的作用。本文主要从以下三个方面展开所要研究的内容:首先,本文对网络爬虫的基本原理进行了介绍,然后分析了主题爬虫的工作流程,之后讨论了关于主题的描述方法,接着重点分析了网页预处理技术,包括HTML标签、网页标题和正文内容的提取、锚文本的提取以及中文分词技术,为后文主题相关性计算奠定了坚实的基础。其次,分析了基于页面内容评价的Best-First算法,针对向量空间模型中权重计算方法,只考虑特征词的词频,忽略了特征词的位置信息这一不足,本文提出利用HTML标签的修饰功能,采用加权频率来计算权重,提高主题相关性判断的准确率。另外,讨论了Best-First算法的贪婪性,针对Best-First算法难以获得全局范围内最优解的局限性,本文对主题爬虫的搜索策略做了一点改进,提出不仅注重搜索与主题相似度很高的链接,同时还考虑某些蕴涵很大远期价值的链接,从而使得主题爬虫能在一定程度上获得全局范围的最优解。最后,本文通过上述分析的理论基础,设计并实现了一个简单的主题爬虫系统。实验结果表明,相比于宽度优先搜索算法和基于页面内容评价的传统的Best-First算法,本文提出的改进算法具有更高的准确率和召回率,它是有效的。
其他文献
异构数据集成查询是当前信息化建设过程中面临的一个重要课题,主要用于解决实际应用中的“信息孤岛”问题。异构数据集成查询的目标是集成已有系统的数据,屏蔽各异构数据源间
虚拟现实(Virtual Reality,简称VR)是由计算机生成一个具有多种感官刺激的虚拟世界,能给人以沉浸感,并且人能与这个虚拟的世界进行交互。在这个多感官感知的系统中,目前的技
培育青少年志愿服务意识有助于构建和完善社会主义核心价值体系、拓展学校德育教育途径进而促进青少年的自我教育和自我发展.近年来,阜阳市在培育青少年志愿服务意识方面取得
移动数据库是移动计算环境中的分布式数据库,由于移动数据库的应用大都嵌入到诸如掌上电脑、PDA、车载设备等移动通信设备中,故移动数据库也称为嵌入式移动数据库。嵌入式设
流体现象(如烟雾、火焰、云彩、波浪、汽泡、爆炸等)是日常生活中十分普遍的景象。流体模拟广泛应用于电影特效、影视广告、网络游戏等图形学相关领域中,是计算机图形学中一
无线Ad Hoc网络是由移动节点组成的多跳、临时性自治网络,具有不依赖于现有的通信设施、配置快速灵活等特点,在军事和民用领域得到越来越广泛的应用。然而,作为一种特殊形式
印刷电路板(PCB,Printed Circuit Board)是各种电子元件的支撑体。随着技术的不断发展和工业的持续进步,PCB制造技术朝更高密度发展,从而也使其的质量检验成为一件非常困难的
国际民航组织鉴于在新航行系统的实施与发展过程中出现的问题和对未来航行系统的发展趋势,提出了空中交通管理信息服务的自动化、一体化的要求。空中交通管理信息服务的自动
由于金融帐户之间的交易所天然具有的转入、转出方式,具有相互交易的一个交易团体的交易数据通过转入帐户和转出帐户之间的关联,形成了一个交易的网络,可以非常直观的用图的
时间表问题是一类特殊的资源调度问题,广泛应用于学校课程和考试的时间安排、各类大型会议、体育比赛、航班(火车、飞机、轮船等)时刻表的制定等。本文以大学课程安排时间表