基于在线自学习的页面更新频率预测算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jay1222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的整体规模越来越大,作为搜索引擎采集模块的爬虫的工作压力与日俱增,即使最专业的搜索引擎服务提供商,如谷歌、百度,也无法保证所有页面的时效性。而就单个页面而言,只有部分页面的变化频率较快。因而,通过页面更新频率预测算法使爬虫只下载那些变化了的网页,对减轻爬虫的工作压力有着重要的意义。  本文围绕着如何在实际环境中有效预测网页变化的需要,在深入研究了网页变化规律的基础上,基于在线抽样检测的算法思想,研究了网页不同特征集对基于聚类的抽样检测算法的影响,特征集包括词向量特征、文本特征、URL特征、动态特征等。在此基础上创新性的提出了遗传基因特征的概念,利用遗传基因特征实现了自学习的优化算法。为了确定实验效果、评价我们的算法,我们搜集了一个真实网页集合的真实变化情况,建立了实验数据集。  本文研究的内容和成果归结为以下方面:  首先,建立了评价网页更新频率预测效果的实验数据集。实验数据集来源于不同类型网站的不同类型网页,保证网页集合的多样性与代表性,使得其他研究人员可以在此数据集上进行网页更新的预测的相关研究。数据集网页数量约为30万,分布在不同的122个网站上。  然后,提取了网页的词向量特征、文本特征、URL特征、动态特征等,研究了不同特征集对基于聚类的在线抽样检测算法的影响,并利用预测命中率评价指标量化了不同特征集对聚类算法实验效果的影响,进而分析了聚类算法的有效性与性能上限。  最后,本文提出了利用遗传基因特征自动优化下一轮的特征,进而实现了在线自学习的页面更新预测算法。遗传基因特征根据上一轮预测结果生成惩罚或奖励因子,从而优化下一轮的网页特征,实现了算法的在线自学习过程。本文提出利用格雷码代替二进制字符串实现遗传基因特征,达到了利用普通的加减法实现奖励或惩罚的目的。  结果表明,基于在线自学习的页面更新预测算法,有效地预测了页面的变化规律,预测命中率比随机算法提高了约43个百分点,比基于网站的抽样检测算法提高了约20个百分点,因而能够有效的节省爬虫网络带宽。
其他文献
任何有效的学习算法都至少要对每一个数据点观察一次,但并非所有数据点应得到同样的重视。本文基于随机采样思想提出两个支持向量机的快速随机近似算法,简单的随机采样算法SA
医学超声图像和合成孔径雷达(Synthetic Aperture Radar,SAR)在成像过程中由于成像机理及设备或周围环境因素等影响,均存在着一种特有的呈斑点状的噪声—speckle(斑点)噪声。超声
半监督学习是目前机器学习与数据挖掘的研究热点,通过较少的监督信息(如标注样本点或成对约束信息)和大量的未标注数据提供的数据分布信息,能对数据集内的点进行正确归类。大量研
资源预留协议(RSVP)使用户可以在互联网上为多媒体应用程序请求不同质量的带宽服务。然而,RSVP协议并没有提供一个灵活的支持安全服务质量(QoSS)的机制。将资源预留协议(RSVP)扩展为
在项目反应理论(IRT)中,参数估计对于建设题库﹑考察被试﹑考察考试质量起着重要的作用。随着IRT的不断发展,产生了多种不同的参数估计方法。但随着模型的越来越复杂,已有的参数
近年来机器视觉技术已经十分广泛的应用在印刷品缺陷检测领域,但是随着人们对印刷品质量的要求提高,传统的印刷品缺陷检测已经很难满足印刷品工业的需要,要想提高印刷品缺陷
无线传感器网络技术作为新兴技术之一,近年来得到了迅速发展。无线传感器网络主要由布置在监测区域中大量的廉价微型传感器节点组成,实时监测传感器网络中的环境信息,在当今军事
流媒体相关服务已经成为互联网中的主流应用,采用P2P技术的流媒体应用在提高流媒体系统的可扩展性、并发性和健壮性的同时,却面临着大量挤占骨干网络,资源安全和内容版权难以
面对海外设备厂商的市场垄断和技术封锁,自主研发半导体设备既是国内半导体设备市场的迫切需求,也是国家意志的体现。本文从控制程序设计、运动性能优化、控制功能升级以及通
随着分布式交互仿真技术的不断发展,HLA(HighLevelArchitecture)成为继DIS(Distributed Interactive Simulation)之后出现的新一代分布式交互仿真标准。为了满足大规模复杂系