搜索引擎中主题网络爬虫的研究与设计

被引量 : 0次 | 上传用户：linzh

【摘要】

：

随着互联网技术的迅猛发展,浩瀚的网络信息与人们获取真正所需信息能力之间的矛盾越来越突出,这就需要搜索引擎技术的支持。然而面临互联网上呈几何级数增长的资源,采集方面

【作者】

：

贺晟

【发表日期】

：

2010年期

【关键词】

：

搜索引擎主题爬虫 Web超链分析向量空间模型模拟退火

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的迅猛发展,浩瀚的网络信息与人们获取真正所需信息能力之间的矛盾越来越突出,这就需要搜索引擎技术的支持。然而面临互联网上呈几何级数增长的资源,采集方面已经面临着索引规模、更新速度以及个性化需求等多方面的挑战,通用搜索引擎再也不能满足人们对个性化、专业化信息检索服务不断增长的需要,建立面向特定领域的主题搜索引擎已经成为搜索引擎新的发展方向,主题搜索引擎被称为第四代搜索引擎。作为主题搜索引擎中占基础核心地位的主题爬虫的研究已经成为网络数据挖掘领域的研究热点。本论文主要围绕主题爬虫进行研究,通过分析主题爬虫相关算法,在Heritrix基础上扩展下载逻辑,使爬虫采集的页面更向主题靠拢。主题爬虫是一种特殊的网络爬虫,其主要目标是在有限的时间内尽可能多地抓取与设定主题相关的网页,尽可能少的抓取与主题无关或低质量的网页。主要的研究工作包括：①、研究了主题爬虫的基本结构及相关理论,深入分析了主题爬虫的相关技术和关键算法,设计与实现了一种基于模拟退火算法搜索策略的主题爬虫——SAS-Crawler。②、在计算页面的主题相关度方面,通过对页面的结构进行分析,根据不同的标签在页面中的位置不同来分配不同的权重,从而使页面的主题相关度计算更加准确。③、在预测链接URL所指的目标页面与主题的相关度方面。综合考虑了多方面的启发信息。如链接文本、链接上下文信息、父页面的主题相关度以及链入链接数。由于同时考虑了内容和链接结构的影响,所以既避免了“主题漂移”,又增大了搜索空间。④、在链接选择方面,本文使用了基于模拟退火机制的链接选择策略。由于主题网页的“隧道”现象,导致了不相关网页之后的相关页面不容易被搜索到。也就是说即便当前页面与主题不相关,此页面中的链接所指的目标网页也有可能是主题相关的。通过使用模拟退火机制的链接选择策略可以很好的限制局部最优,下载更多的主题相关网页。⑤、研究了开源网络爬虫Heritrix,并在Heritrix的基础上进行了一些改进。增加了主题确立模块、页面主题相关度计算模块、以及链接评价模块。并修改了链接搜索策略,采用基于模拟退火算法的链接搜索策略。实现了本文提出的SAS-Crawler。并通过实验测试了本论文的主题爬虫,并给出了实验和结果分析。

其他文献

延边地区初中寄宿生学校适应与心理健康关系研究

本文主要研究初中寄宿生学校适应与心理健康关系问题。中学阶段是人生中的关键时期,人的个性将在这一时期初步定型。寄宿生是这个阶段一个非常特殊的学生群体,他们离开家庭入

学位

初中寄宿生学校适应心理健康

初级中学校纪校规问题研究

本文受华中师范大学杜时忠教授所提出的制度德育理论启发,结合自己六年初级中学教育教学管理实践经验,采取问卷调查法、访谈法、文献综述法等,深入了解初级中学校纪校规在制

学位

初级中学校纪校规制度德育

论战后日本劳资关系及对中国的启示

劳资关系是市场经济国家最基本的社会关系,劳资关系的好坏,直接决定着该国的经济发展与社会稳定。日本作为“二战”战败国,经济在战后迅速复苏,并成功克服两次石油危机,一跃

学位

日本劳资关系三方协商劳动法律三大支柱春斗

吡啶硫酮锌乳膏对寻常性银屑病模型小鼠防治作用的研究

目的:研究吡啶硫酮锌乳膏对寻常性银屑病模型小鼠的防治作用。方法:采用咪喹莫特复制寻常性银屑病模型小鼠,然后给予吡啶硫酮锌乳膏局部治疗14 d,观察各剂量组动物皮损的变化

期刊

银屑病吡啶硫酮锌乳膏防治作用

虚拟物流联盟协同效应及合作伙伴选择研究

企业组建虚拟物流联盟的主要动机是获得成本的节约和效率的提高,即产生协同效应。协同效应是虚拟物流联盟的前提和基础。因此,能否客观而准确地分析和评估虚拟物流联盟产生的

学位

虚拟物流联盟协同效应伙伴选择

关于村委会发放土地补偿款案例分析

随着我国经济快速的发展与城市化进程加速,对土地的需求也越来越多,征收农村的土地是一个必然的现象。并且根据世界各国的实际经验来看,征收农村的土地也是一个必经阶段。征

学位

村委会土地补偿出嫁女村民资格

姜黄素和白藜芦醇对小鼠恶性黑色素瘤自杀基因疗法的增效作用

一、研究目的及意义恶性黑色素瘤恶性程度极高、发病隐匿、易发生血行转移、预后差、死亡率高,临床治疗很棘手。随着分子生物学的发展,恶性黑色素瘤的基因治疗尤其是自杀基因

学位

恶性黑色素瘤HSV-tk/GCV系统姜黄素白藜芦醇

补肾活血化痰方联合电针治疗老年主观性耳鸣的疗效观察

目的观察补肾活血化痰方联合电针治疗老年主观性耳鸣的临床疗效。方法将60例耳鸣患者按治疗方法分为3组:补肾活血化痰方组(中药组),电针组,补肾活血化痰方+电针组(针药组),每

期刊

补肾活血化痰方电针主观性耳鸣临床研究

AB公司中层管理人员绩效考评体系研究

随着市场的进一步开放,竞争也日趋激烈,要与全球最好的组织竞争,就得提高效率、效果和技能,以提高组织发展的稳定性。绩效考评是绩效管理的重中之重,完善的绩效考评体系能够

学位

绩效考评中层管理人员AB公司

分层教学方法在高职汽车检测与维修专业中的实践与应用

随着时代的迅猛发展,社会对高职院校的要求也是越来越高,然而目前的高职教育存在的种种问题使其很难满足社会的需要。在教育改革进行的如火如荼的今天,高职教育汽车检测与维

期刊

高职教育分层教学汽车检测与维修

搜索引擎中主题网络爬虫的研究与设计

与本文相关的学术论文