基于Shark-Search与OTIE自适应算法的主题爬虫关键技术研究与实现

来源 :江苏大学 | 被引量 : 1次 | 上传用户:zwxcatcat111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据量呈爆炸式增长的大数据时代,互联网数据成为21世纪最重要的资源,同时也是人工智能发展的基石。如何精准、快速地从互联网资源中获取有用的数据成为当前研究的热点。通用搜索引擎尽量为用户查询并返回更多的数据,但是返回的数据中非用户需要数据占据多数。主题搜索引擎是通过检索用户给定的主题信息,来提高搜索引擎的速度与准确率,因此成为搜索引擎研究的主要方向。网络爬虫是搜索引擎中重要的组成部分,专为搜索引擎从互联网上获取网络资源。主题爬虫领域的三类经典算法其中包括:基于链接的算法、基于内容的算法和链接与内容相结合的算法。本文首先对基于内容的Shark-Search算法中存在的不足进行优化,然后对基于链接与内容相结合的OTIE自适应算法中存在的问题进行解决,最后在两个改进算法的基础上实现主题爬虫系统。主要研究内容如下:(1)基于内容的主题爬虫算法Shark-Search的改进。针对Shark-Search算法在计算子链接主题相关度时易受到其上下文信息量不足和噪音链接的影响,提出改进算法ESS(Enhance Shark-Search)。首先,ESS算法不再通过简单的关键词与子链接上下文内容进行相似度计算,而是利用迭代式扩展-过滤技术来扩展主题词,得到一个主题相关性更全面的主题词集,可以有效降低因信息量不足而产生的影响。其次,ESS算法通过引入预判权值U(l)来消除噪音链接,预判权值U(l)是通过获取子链接在网页中的CSS样式、锚文本、图片标签等特征同时利用每个特征对应的权重计算得到最后的权值,预判权值U(l)的引入对降低噪音链接的影响起到明显的效果。通过从新浪资讯网中抓取4个不同主题的数据进行实验,实验结果表明,ESS算法的查准率比原算法提高了12.1%,查全率比原算法提高了12.08%。(2)基于链接与内容相结合的OTIE自适应算法的改进。针对OTIE自适应算法未全面考虑新旧网页的平衡,爬虫程序在爬行网页过程中由于网页现金值分配不佳导致抓取到的新网页数量偏少的问题,提出改进的自适应算法E-OTIE。E-OTIE自适应算法在判断网页重要性时引入一个与时间有关的权重因子W(t)。权重因子W(t)是网页最新被修改到被抓取的时间差值,若时间差越大,则该网页越旧,对应的权值越低。时间权重的引入对平衡新旧网页起到明显的效果。通过从互联网中爬取的数据进行实验,实验结果表明,E-OTIE自适应算法的平均收获率和平均召回率与原始算法很接近,而算法的新网页收获率提升约23%。(3)基于上述的研究,本文将实现一个主题爬虫的原型系统,使用者根据其需求在系统界面中简单配置,然后抓取符合条件的数据。
其他文献
伺服压力机是国际压力机发展的新方向,论文介绍伺服压力机国内外发展状况,选择网野公司和国内某产品进行比较,并概述了伺服压力机的发展趋势与存在的问题。
思想政治教育资源就其本性而言,是为广大思想政治教育者所开发和利用,并为思想政治教育活动目的服务的,因而也就产生了功能和效应问题。主要阐述了思想政治教育资源功能的多种表
多囊卵巢综合征(PCOS)是女性常见的内分泌紊乱性疾病之一。现代医学中,PCOS的治疗主要以运动、饮食、口服药物为主。针刺是传统医学的重要组成部分,主要通过刺激特定腧穴,达
行车安全预警是汽车安全辅助驾驶系统的主要组成部分,减少交通事故发生,提高出行安全是道路交通中至关重要的问题。阐述了基于机器视觉的行车安全预警技术的构成,分析车道线
什么是定理直观模型,我们把按定理的含意画出的图形,叫做该定理的直观模型。在定理的直观模型中,结论里的元素所构成的图形,叫做该定理的结论模型。如图 What is the intui
简要介绍了引起船舶柴油机缸套异常磨损的原因,以及缸套磨损的测量方法。为了掌握缸套磨损的发展动向。对可能发生的异常磨损及时作出剖析。
目前医学针对多囊卵巢综合征(Polycystic Ovary Syndrome,PCOS)的治疗仍是棘手问题,作者经过多年的临床经验,总结关于中医药治疗PCOS文献,发现此病通过中医药治疗显效明显且
手法主义艺术始于16世纪20年代,因作品中显露出奇异夸张、玄奥晦涩、矫揉造作的特点而得名,终于17世纪的巴洛克艺术.手法主义是一个广被争议的艺术现象,很长时间以来,它是以"
土壤重金属污染问题已逐渐演变为全球性的热点、重点问题,对于重金属污染土壤的治理方法已有不少研究。化学钝化法是其中的一种途径,因其操作简便、投资成本相对较低、修复周
焊接作为工业生产中非常重要的一种加工手段,对于钢结构的组装,焊接质量的好坏和钢结构相关产品质量起着决定性的作用。通过对机器人智能焊接技术进行探讨,可促进和推动精密