基于网页更新频率预测的增量爬虫研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tonymin111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年互联网发展迅速,从网页的整体规模角度分析,网页的数量以前所未有的速度增加;就单个网页的更新速率而言,只有部分网页的更新频率较快。以上这些因素给搜索引擎带来了极大的挑战,因此在快、准、全、新的衡量标准下,针对信息采集的爬虫爬行策略的研究有着重要的意义。  本文围绕着能够在实际环境中提高爬虫爬行效率的需求,在深入研究了爬虫的工作原理的基础上,首先通过关于时间序列的数学建模,提出了网页更新频率预测的爬行策略。其次提出了建立了评价网页更新频率预测效果的标准数据集的思想,并建立了部分数据集,以可定制的时间、网页变化粒度记录了网页变化过程,方便其他研究人员的使用。最后在标准数据集的基础上对网页更新频率的数学模型不断进行优化和改进,能够应用到实际系统中。  本文研究的内容和成果归结为以下方面:  首先,结合爬虫实际应用需求和时间序列的相关理论,提出了基于马尔科夫链的网页更新预测的数据模型,验证了预测网页更新频率在实际应用的可行性。  其次,建立了评价网页更新频率预测效果的标准数据集。标准数据集的数据来源从横向上来自于不同类型网站,从纵向上来自于同一站点的不同类型网页,形成多维度的网页采集结构,保证网页的多样性、针对性、代表性。以可定制的时间粒度和网页变化粒度记录了网页变化过程,使得其他相关研究人员无需下载网页就可以通过记录的数据进行网页更新的预测和对预测结果进行评价。  然后,在建立的标准数据集上通过准确率、命中率、覆盖率、F-measure等评价指标对基于马尔科夫链的网页预测算法进行了评价。  最后,在前期理论研究成果的基础上,本文介绍了基于马尔科夫链预测的增量爬虫系统的设计。
其他文献
互联网的应用推广以及由此带来的便捷信息传递和信息服务,使电子商务在迅速发展、状大的同时也产生了信息超载现象。用户面对大量的商品信息,想要方便、快捷地找到自己感兴趣
随着全球经济一体化的深入发展,敏捷的、不受限制的业务集成需求已经成为关键的业务需求。企业希望能够集成企业内外的信息,同时又能随时更新。面向服务架构(SOA)应运而生,是当
随着互联网技术的进步和网络应用的普及,对等网络、移动自组网络、网格以及无线传感器网络等新型网络模型相继出现,由于此类网络具有开放、动态、自主、分布式等特性,使得安全问
近年来,以Web服务为基础的面向服务的体系结构的迅速发展,为互联网应用提供了一种共享数据的有效手段。Web服务组合为企业业务应用提供了极大的灵活性。然而,Web服务组合技术的
随着计算机技术的不断发展,社会各行业人士使用智能设备完成工作的频率也比以往多。同时黑客技术、网络攻击技术也在不断的发展,由此,智能终端设备的安全防范越来越受到人们
在自动信任协商过程中,当协商双方不在同一安全域时,敏感信息保护就成了自动信任协商的关键。证书保护是敏感信息保护研究的重点问题。证书中敏感信息泄露的途径主要有两个:(1
随着科学技术与计算机软硬件的飞速发展,计算机图形学在电影、游戏、广告、军事可视化仿真等方面得到了越来越广泛的应用。自然景物的模拟已经成为计算机图形学领域中最具挑
随着信息技术的飞速发展,特别是三维交互技术和虚拟现实技术(VR)的发展,传统的装配培训教育模式已落后于时代的发展。机械设备拆装培训一直受装备机件庞大,不易教学,设备机件
语义网理论为传统的Web服务增加了语义描述信息,从而提高了Web服务的发现,组合和匹配能力。服务匹配是服务发现和组合的核心,研究人员通常关注的是提高匹配算法的查全率与查
无线传感器网络(wireless sensor network,简称WSN)是无实物传播介质的传感器网络。因此节点的位置灵活度更高,并且易于部署。它主要是由许多能够进行无线通讯的低成本,大量