一种改进Best-First算法的主题爬虫搜索算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：chyenu

【摘要】

：

飞速发展的互联网带来了海量的信息资源,用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时,通用搜索引擎难以为其提供

【作者】

：

丁发梅

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

Best-First算法主题相关性 HTML标签准确率召回率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

飞速发展的互联网带来了海量的信息资源,用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时,通用搜索引擎难以为其提供满意的结果。为了打破通用搜索引擎的这一局限性,研究具有专业特点的智能化搜索引擎成为一种趋势,因而顺理成章的诞生了垂直搜索引擎。垂直搜索引擎中的主题爬虫犹如人的心脏一样,起着非常基础与关键的作用。主题爬虫按照用户给定的目标主题,智能化的搜索Web,快速、准确地提取出主题相关页面,满足用户所需。研究高效的主题爬虫对于提高垂直搜索引擎的性能有着非常重要的作用。本文主要从以下三个方面展开所要研究的内容:首先,本文对网络爬虫的基本原理进行了介绍,然后分析了主题爬虫的工作流程,之后讨论了关于主题的描述方法,接着重点分析了网页预处理技术,包括HTML标签、网页标题和正文内容的提取、锚文本的提取以及中文分词技术,为后文主题相关性计算奠定了坚实的基础。其次,分析了基于页面内容评价的Best-First算法,针对向量空间模型中权重计算方法,只考虑特征词的词频,忽略了特征词的位置信息这一不足,本文提出利用HTML标签的修饰功能,采用加权频率来计算权重,提高主题相关性判断的准确率。另外,讨论了Best-First算法的贪婪性,针对Best-First算法难以获得全局范围内最优解的局限性,本文对主题爬虫的搜索策略做了一点改进,提出不仅注重搜索与主题相似度很高的链接,同时还考虑某些蕴涵很大远期价值的链接,从而使得主题爬虫能在一定程度上获得全局范围的最优解。最后,本文通过上述分析的理论基础,设计并实现了一个简单的主题爬虫系统。实验结果表明,相比于宽度优先搜索算法和基于页面内容评价的传统的Best-First算法,本文提出的改进算法具有更高的准确率和召回率,它是有效的。

其他文献

基于XML和WebService的异构数据集成查询系统的研究

异构数据集成查询是当前信息化建设过程中面临的一个重要课题,主要用于解决实际应用中的“信息孤岛”问题。异构数据集成查询的目标是集成已有系统的数据,屏蔽各异构数据源间

学位

XMLWebService异构数据库集成查询

数学形态学用于虚拟视景仿真技术中图像配准方法的研究

虚拟现实(Virtual Reality,简称VR)是由计算机生成一个具有多种感官刺激的虚拟世界,能给人以沉浸感,并且人能与这个虚拟的世界进行交互。在这个多感官感知的系统中,目前的技

学位

虚拟现实视景仿真全景图配准数学形态学

青少年志愿服务意识的培育路径研究r——以阜阳市为例

培育青少年志愿服务意识有助于构建和完善社会主义核心价值体系、拓展学校德育教育途径进而促进青少年的自我教育和自我发展.近年来,阜阳市在培育青少年志愿服务意识方面取得

期刊

青少年志愿服务意识阜阳市

移动计算环境下嵌入式数据库在换装软件中的研究与应用

移动数据库是移动计算环境中的分布式数据库,由于移动数据库的应用大都嵌入到诸如掌上电脑、PDA、车载设备等移动通信设备中,故移动数据库也称为嵌入式移动数据库。嵌入式设

学位

SQL Server CE.NET数据同步嵌入式数据库换装软件

基于GPU的流体模拟加速方法

流体现象(如烟雾、火焰、云彩、波浪、汽泡、爆炸等)是日常生活中十分普遍的景象。流体模拟广泛应用于电影特效、影视广告、网络游戏等图形学相关领域中,是计算机图形学中一

学位

流体模拟Navier-Stokes方程并行共轭梯度法泊松方程矩阵向量乘内积运算

一种安全增强的无线Ad Hoc门限签名系统的研究与实现

无线Ad Hoc网络是由移动节点组成的多跳、临时性自治网络,具有不依赖于现有的通信设施、配置快速灵活等特点,在军事和民用领域得到越来越广泛的应用。然而,作为一种特殊形式

学位

移动AdHoc网络门限签名数字签名网络安全密钥重分派前摄安全

基于图像的电路板元件贴装缺陷检测系统

印刷电路板(PCB,Printed Circuit Board)是各种电子元件的支撑体。随着技术的不断发展和工业的持续进步,PCB制造技术朝更高密度发展,从而也使其的质量检验成为一件非常困难的

学位

电路板元件贴装缺陷检测系统图像分析技术几何特征数据

空中交通管理中的分布式空间数据库关键技术研究

国际民航组织鉴于在新航行系统的实施与发展过程中出现的问题和对未来航行系统的发展趋势,提出了空中交通管理信息服务的自动化、一体化的要求。空中交通管理信息服务的自动

学位

空中交通管理分布式空间数据库面向对象路由算法分层网络

频繁子图挖掘算法及其在洗钱模式发现中的应用研究

由于金融帐户之间的交易所天然具有的转入、转出方式,具有相互交易的一个交易团体的交易数据通过转入帐户和转出帐户之间的关联,形成了一个交易的网络,可以非常直观的用图的

学位

金融交易网络洗钱模式频繁子图挖掘算法图像识别

遗传算法在求解时间表问题中的应用研究

时间表问题是一类特殊的资源调度问题,广泛应用于学校课程和考试的时间安排、各类大型会议、体育比赛、航班(火车、飞机、轮船等)时刻表的制定等。本文以大学课程安排时间表

学位

遗传算法时间表问题大学课程时间表启发式算法多目标向量评价遗传算法

一种改进Best-First算法的主题爬虫搜索算法研究

与本文相关的学术论文