主题爬虫系统的研究

被引量 : 6次 | 上传用户:lan737898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网飞速发展,网络上的资源越来越多,获取所需信息的能力变得非常重要。由于通用搜索引擎的诸多缺点,面向特定主题的垂直搜索引擎成为了研究热点。主题爬虫作为垂直搜索引擎的数据来源,起着关键性的作用。本文通过分析汽车主题网页,实现了面向汽车的主题爬虫系统——CarSpider。在CarSpider系统中,采用主题关键词组成的特征向量进行主题描述,并利用ODP目录和搜索引擎选取与汽车有关的并且具有权威性的链接作为爬虫的种子URL。由于html代码的不规范,采用html Tidy对网页源码进行整理,并利用网页的结构采用DOM树模型对网页进行预处理。对网页类型进行区分,针对不同类型的网页采用不同的方法提取网页内容。采用URL分析法、爬行历史记录法和统计法判断网页类型。在提取网页内容块中的主题相关信息时,采用向量空间模型来计算内容块与主题的相关度。为了提高爬虫的网页抓取效率,采用基于网页内容和基于网络结构的URL主题相关度预测方法,并提出自适应的主题爬行方法。其中基于网页内容的URL主题相关度预测算法通过站点级别、网页块级别、链接级别三个级别来计算待爬行URL的优先级;基于网络结构的URL相关度预测算法充分利用互联网的图结构,针对PageRank算法发现的重要网页时不区分主题的,无法适应主题爬行这个缺点,对其进行改进,将主题相关度与PageRank算法相结合,从而使与主题相关的网页获得较高的PageRank值。在网页消重方面,选择Bloom Filter进行URL消重,利用网页特征向量进行内容消重,最大程度的消除重复网页。最后,对CarSpider进行测试,主要从网页抓取速度和抓取准确度两个方面来进行实验,通过对测试数据的分析,得到了较好的结果。
其他文献
敦煌壁画是世界文明的瑰宝,具有极高的历史、社会和艺术价值。敦煌壁画中的人物、服饰、建筑、动物等对像是敦煌学研究、敦煌相关艺术创作及数字化的重要素材。同时众多的敦
随着RFID应用的深入,RFID系统的部署逐渐向大规模网络化分布式的趋势发展,以往的数据处理方式已经不能满足这种数据处理需求如何处理从分布于网络上的多个读写器收集的海量的
随着我国经济水平的飞速发展,人们的物质生活水平得到了极大的提高,人们的消费观念也逐渐改变,外出旅游是人们工作学习之余重要的生活组成部分。随着旅游热潮的到来,各地旅游
学位
网格门户是位于用户与网格之间的一个集成系统,它为网格用户提供一个获得信息和使用网格资源的简单、直观的接口,也是网格管理员管理和控制网格资源的重要工具。网格门户的建立
点乘运算是椭圆曲线公钥密码体系中的核心运算,本文针对素数域上椭圆曲线点乘运算展开讨论和研究,主要工作有:对某文献中提出的一种模乘算法进行优化,改进之后的算法与原算法
缓冲区溢出问题是软件系统的主要的安全隐患,通过向内存中写入超出缓冲区的数据,覆盖一些重要内存空间,从而达到篡改数据、控制系统、导致系统无法工作等目的。由于该问题涉
随着网络通信技术的发展和便携式智能移动设备的普及,基于智能终端的视频传输系统的应用将会越来越普遍。然而,限于硬件设备和实现方法等方面的原因,基于智能终端的视频传输
20世纪90年代中期,虚拟产品开发(virtual product development, VPD)技术的出现引起了研究者的广泛关注。VPD技术的基本思想就是通过计算机内的虚拟模型来模拟和预测产品功能
随着数字家电和网络的普及,数字家庭已成为现代信息化发展的一大趋势。但家庭中的各种数字产品仍然是相对独立和分离,构建一个宽带接入、内部互联、内容共享的数字家庭网络的
P2P技术由于其非中心化、易扩展、稳定性高、负载均衡等优点,越来越多地被应用于文件共享、即时通信、分布式计算、协同工作等各个领域,并促使这些领域出现了新的发展和应用