论文部分内容阅读
在数据量呈爆炸式增长的大数据时代,互联网数据成为21世纪最重要的资源,同时也是人工智能发展的基石。如何精准、快速地从互联网资源中获取有用的数据成为当前研究的热点。通用搜索引擎尽量为用户查询并返回更多的数据,但是返回的数据中非用户需要数据占据多数。主题搜索引擎是通过检索用户给定的主题信息,来提高搜索引擎的速度与准确率,因此成为搜索引擎研究的主要方向。网络爬虫是搜索引擎中重要的组成部分,专为搜索引擎从互联网上获取网络资源。主题爬虫领域的三类经典算法其中包括:基于链接的算法、基于内容的算法和链接与内容相结合的算法。本文首先对基于内容的Shark-Search算法中存在的不足进行优化,然后对基于链接与内容相结合的OTIE自适应算法中存在的问题进行解决,最后在两个改进算法的基础上实现主题爬虫系统。主要研究内容如下:(1)基于内容的主题爬虫算法Shark-Search的改进。针对Shark-Search算法在计算子链接主题相关度时易受到其上下文信息量不足和噪音链接的影响,提出改进算法ESS(Enhance Shark-Search)。首先,ESS算法不再通过简单的关键词与子链接上下文内容进行相似度计算,而是利用迭代式扩展-过滤技术来扩展主题词,得到一个主题相关性更全面的主题词集,可以有效降低因信息量不足而产生的影响。其次,ESS算法通过引入预判权值U(l)来消除噪音链接,预判权值U(l)是通过获取子链接在网页中的CSS样式、锚文本、图片标签等特征同时利用每个特征对应的权重计算得到最后的权值,预判权值U(l)的引入对降低噪音链接的影响起到明显的效果。通过从新浪资讯网中抓取4个不同主题的数据进行实验,实验结果表明,ESS算法的查准率比原算法提高了12.1%,查全率比原算法提高了12.08%。(2)基于链接与内容相结合的OTIE自适应算法的改进。针对OTIE自适应算法未全面考虑新旧网页的平衡,爬虫程序在爬行网页过程中由于网页现金值分配不佳导致抓取到的新网页数量偏少的问题,提出改进的自适应算法E-OTIE。E-OTIE自适应算法在判断网页重要性时引入一个与时间有关的权重因子W(t)。权重因子W(t)是网页最新被修改到被抓取的时间差值,若时间差越大,则该网页越旧,对应的权值越低。时间权重的引入对平衡新旧网页起到明显的效果。通过从互联网中爬取的数据进行实验,实验结果表明,E-OTIE自适应算法的平均收获率和平均召回率与原始算法很接近,而算法的新网页收获率提升约23%。(3)基于上述的研究,本文将实现一个主题爬虫的原型系统,使用者根据其需求在系统界面中简单配置,然后抓取符合条件的数据。