网络爬虫在Web信息搜索与数据挖掘中应用

来源 :科学与技术 | 被引量 : 0次 | 上传用户:qinxiaogang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着计算机网络技术的发展,计算机通讯、计算机原理等这些内容已经逐渐被人们深知,关于网络爬虫的概念人们也逐渐的理解,并且不断的探索网络爬虫在信息检索与数据挖掘中的应用。本文主要从网络爬虫的概念和分类进行概述,并且分析和探讨了网络爬虫在信息检索和数据挖掘中的应用,最后对于未来网络的发展进行了展望。
  关键词:网络爬虫;信息检索;数据挖掘
  由于计算机技术的发展,现在的网络资源类型也十分的丰富,并且所含的数据和信息也是特别的多,基本上可以满足人们目前的需要,但是如何快速的对这些信息和数据进行分类,这就需要拥有很强的数据处理能力,人们对于获取数据,处理数据是非常关心的。网络爬虫可以非常容易的获取到我们需要的一些信息,方便人们对于数据的搜索、整理和利用,使我们日常信息获取的高效工具。
  一、网络爬虫的概念与类型
  以前人们经常取名为网络蜘蛛的,其实就是网络爬虫,这是按照一定的规则在人们自动浏览网站时获取信息的程序或者脚本,曾经被广泛应用于互联网的搜索引擎中,一般在各种网页中会有许多的链接,网络爬虫正是从这些链接中不断的获取其他界面上的信息,那么网络爬虫在进行数据采集时就是像一个爬虫在网络上漫游,所以才被形象的称之为网络爬虫。根据不同的分工,网络爬虫有不同的分类,就像社会上有各种职业的分工一样,大型的爬虫系统,内部也是有不同的分工的,这将爬虫分为新网页爬虫和定期网络爬虫,新网页爬虫是专门负责寻找没有被采集过的一些新网页;定期爬虫是负责采集那些更新比较快,并且内容比较多的网站,然后把这些网页的网址进行保存,定期的去进行采集,查看网页中内容是否有更新。但是根据不同的应用和系统的结构以及实现技术,又把网络爬虫分为增量式网络爬虫、聚焦网络爬虫、深层网络爬虫、和通用网络爬虫。增量式网络爬虫指的是在更新的时候只更新改变的地方,而没有改变的地方则不更新,所以网络爬虫仅仅采集内容发生变化的网页或者新产生的网页;聚焦网络爬虫是按照预先定义好的主题有选择地惊醒网页爬取,采集目标那些与主题相关的页面,使用网络爬虫大大节省采集数据所需的带宽和服务器资源,适用于特定人群;深层网络爬虫是需要调教一定的关键词之后才能获取的页面;通用网络爬虫主要应用在大型的搜索引擎中,一般采集的目标是全网的资源,目标的数据比较庞大。
  二、网络爬虫在web信息检索中和数据挖掘中的应用
  1.网络爬虫在web信息检索中的应用
  网络爬虫在网页信息检索中的应用主要是将爬虫分为三种模块实现的:网页采集模块,索引模块和搜索模块。这里的采集模块实际上包含两个部分。第一个部分是单纯网页采集模块,它负责搜索网页,是整个系统的关键部分,这将直接影响数据采集的效果。第二个是信息分析和过滤模块,它负责将网页中的信息进行自动归类,然后根据解析提取出网页的主要数据,包括标题、节选、发布时间、链接地址等,将所有的噪音信息剔除,最后將提取出的信息展示给用户。索引模块是为HTML 页面来创建索引。在下载的过程中,不可避免地会遇到重复的链接,如何消除这些重复的链接,是个很复杂的问题。URL 的去重可以说是爬虫系统中最重要的一部分,直接影响数据搜索和采集的效率和效果,索引模块主要就是为了去除重复链接的。搜索模块则是系统与用户交互的模块,系统根据用户输入的查询语句,负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。网络爬虫的设计流程中,核心部分是获得网页中的 URL列表、创建下载的客户端、获取并存储得到的网页结果。
  2.网络爬虫在数据挖掘中的应用
  互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略有以下三种:1)历史参考策略:根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。2)用户体验策略:尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结果。因此,抓取系统可以优先更新那些现实在查询结果前几页中的网页,而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版本,并且根据过去每次内容变化对搜索质量的影响,得出一个平均值,用这个值作为决定何时重新抓取的依据。3)聚类抽样策略:之前两种更新策略都需要网页的历史信息。这样会有两个问题:1、系统要是为每个系统保存多个版本的历史信息,无疑增加了很多的系统负担;2、另一方面是如果新的网页完全没有历史信息,这样就无法确定更新策略。这种策略认为,网页具有很多属性,类似属性的网页,可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率,只需要对这一类网页抽样,以他们的更新周期作为整个类别的更新周期。一般来说,网络爬虫的系统需要面对的是整个互联网上数以亿计的网页。单个数据采集和搜索的程序不可能完成这样的任务。往往需要多个搜索程序一起来处理。一般来说网络爬虫的系统往往是一个分布式的三层结构。最下一层是分布在不同地理位置的数据中心,在每个数据中心里有若干台抓取服务器,而每台抓取服务器上可能部署了若干套爬虫程序。这就构成了一个基本的分布式抓取系统,这样使得数据处理更加方便。
  三、总结
  网络爬虫不同于黑客,网络爬虫所做的事情是利于人们发展的,使用网络爬虫可以发现网络中隐藏的有价值的信息,提高筛选和索引率,为用户提供好服务。随着计算机技术和互联网技术的不断发展,未来网络爬虫会朝着精准化、个性化和智能化的方向不断发展,给人们提供需要的信息,方便人们的工作和生活。
  参考文献
  [1]杨文刚,韩海涛.大数据背景下基于主题网络爬虫的档案信息采集[J].兰台世界(旬刊),2015(20):20-21.
  [2] 陈维.网络环境下的信息检索与数据挖掘技术[J].现代情报,2009(5).
其他文献
摘要:随着世界经济的飞速增长,我国的经济在改革开放以来也得到了前所未有的进步。现如今,世界的各个领域都在广泛应用信息技术,在信息化社会高速运转的背景下,计算机数据库技术在信息管理中,也是使用频率最高,最多的,也是最广泛的,这一现象取决于计算机数据库技术的超大的应用范围和时效性。现如今,生活和工作中的很多的便捷、高效率也来源于计算机数据库技术在信息管理中运用之后的产物。本文笔者主要阐述了计算机数据库
期刊
摘要:外来入侵性杂草奇异虉草(Phalaris paradoxal.)为禾本科(Gramineae)虉草属(Phalaris)一年生杂草,原产于欧洲,具有较强的繁殖能力和竞争能力,其形态特征、物候期以及生长需求与麦类作物相似,对发生地冬春农作物,尤其是麦类作物危害严重,是世界公认的麦田恶性杂草。2008年奇异虉草在我市大面积发生,对发生地麦类作物造成严重影响。针对奇异虉草的危害,保山市农环站开展了
期刊
摘要:城市智能交通运输系统的智能技术是管理整个运输系统的现代科技的总称。计算机技术发展迅速,智能化程度越来越高,具有功能齐全、运行效率高的特点,从而为交通运输系统的智能化奠定了基础。  关健词:智能交通系统;路网流量;控制器;解码器  1智能交通运输系统的概念  智能交通运输系统(ITS)是将先进的信息技术、通讯技术、传感技术、控制技术以及计算机技术等有效地集成运用于整个交通运输管理体系,而建立起
期刊
摘要:“海上鲨鱼”垃圾收集装置是基于双体船结构进行设计的。一方面,该装置两边夹层结构均采用玻璃钢复合材料,其相互固定为装置提供了所需的浮力。通过船体的安装孔,将收集筐通过轴、齿轮以及电机进行联接;另一方面,通过自主设计的电机驱动电路、信号采集电路、电源电路系统,将GPS 信号、电池电压检测数据采集等数据实时采集。“海上鲨鱼”的处理器选用MC56F8367,并采用OV6620数字摄像头作为沿岸海域垃
期刊
摘要:热轧加热炉智能烧钢技术是钢厂实现流程化生产的重要技术。基于此,本文就主要以热轧加热炉智能烧钢技术为研究对象,分析热轧加热炉常见的控制方式,然后探讨智能加热炉烧钢技术,在设计和升级改造等方面的具体实践,旨在实现对热轧加热炉智能烧钢技术的有效应用。  关键词:钢厂;热轧加热炉;智能烧钢技术;应用实践  前言:  钢铁行业属于流程型工业,通过智能化技术对生产流程进行控制,提高l了生产的效率。现阶段
期刊
摘要:卡斯柯CBTC系统是一个基于无线的列车自动控制系统,本文主要分析了南京地铁柯信号系统SDH故障问题和应急处置策略,仅供参考。  关键词:南京地铁;卡斯柯信号系统;SDH故障;应急处置  一、泰山新村(含ZC的联锁区)  (一)SDH电源故障:  SDH1/ SDH2及同时断电(电源1/2及同时断电)故障现象:  1.信号后台监控设备:NMS_SDH 服务器,断开泰山新村SDH1开关,NMS-
期刊
摘要:机动陆面载体特别是车载雷达天线以及车载发射机等多种设施,在到达一定的预留位置之后,应该要求更加迅速地进行架设操作。机电式的自动化调平装置与原本的液压式自动化进行的调平设备相比较而言,具有进行调平的时间较少,精确度增加以及安全性和可靠性能很高的特征优势,本文主要就对某种类型的车载雷达的传统调平操控管理系统进行了优化和改进,进而实现了机电式车载平台对于自动化调平的自动化控制以及全闭环操控。  关
期刊
摘要:本文基于笔者山东奥瑟亚建阳炭黑有限公司多年技术工作经验,首先系统描述了炭黑生产线的工艺流程与日常生产概况,然后理论结合实际的对该种产品全产业链式的危险因素进行表征式识别。为同行提供建设性安全生产意见。  关键词:炭黑;生产;危险;因素  1引言  随着社会的进步与工业的发展,炭黑作为橡胶工业重要的原材料之一已经越来越受到化学工业领域的重视。据不完全统计,橡胶行业耗损炭黑92%,其中轮胎用量6
期刊
摘要:目前对基于内容的图像检索的研究热点主要集中在基于图像特征(颜色、纹理、形状等)的检索,本文根据国内外基于图像特征进行图像检索的专利文献,按照上面列举的几个不同类别的图像特征来对图片的特征提取相关技术进行介绍和分析,为图像检索领域的研究工作提供参考,帮助本领域相关人员深入了解图像检索领域。  关键词:图像检索;专利分析;图像特征;颜色特征;纹理特征  由于基于文本的图像检索要用手工对图像进行注
期刊
摘要:随着社会科技水平的进步与发展,飞机已逐渐变成了人们出行的主要交通工具。相应地,确保飞机飞行安全也成为空运部门及乘客一个十分关注的问题。其中,保障飞机安全可靠飞行需要考虑很多因素,而气象因素是其中一个很关键的因素,特别在极端天气环节下飞机隐患事故会频繁发生。目前,机载气象雷达是一种比较可靠的气象探测设备,能够很好的确保飞机在不同气候条件下的飞行安全。该设备在飞机飞行过程中,可以及时地探测到航线
期刊