一个增量更新的Web信息采集系统的设计与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:otherwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的飞速发展,使网络成为人们发布、传输和获取信息的重要途径,为人们生活、工作提供了丰富的信息和资源。Web信息采集作为获取网络信息的重要方法,得到了迅速发展,被应用于多种服务和研究中。然而,由于Web信息资源的动态性,造成了已采集信息的失效,传统的更新采集方式需要很大时空开销。为了提高更新采集的效率,本文主要针对增量更新的Web信息采集进行了研究。 Web网页变化有两个属性:内容属性和时间属性。根据这两方面,本文研究了基于MD5算法和基于人工神经网络的增量更新策略。前者应用MD5算法对网页内容进行信息摘要生成MD5值,通过比较MD5值来判断网页变化与否,实现增量更新;后者通过人工神经网络对网页变化的时间间隔建立网络模型,采用BP算法来训练学习,得到一个预测模型,以此来预测出各网页的变化时间间隔,通过与实际采集的时间间隔相比较判断网页是否发生变化,实现增量更新。本文设计并实现了一个基于这两种增量更新策略相结合的Web信息采集系统:先通过比较时间间隔,判断发生变化的网页,再对这些网页内容进行信息摘要生成MD5值,与以前的相比较,验证网页是否确实发生了变化。对于变化的网页进行下载更新,没有变化的网页不予处理。 实验表明,基于人工神经网络和MD5相结合的增量更新策略在判断网页是否变化是有效的,网页变化时间间隔的人工神经网络预测模型能够在不下载网页内容的情况下,根据以前采集的历史记录预测出网页变化时间间隔,而MD5能够滤掉预测模型预测出的发生变化但实际没有发生变化的网页,从而减少系统对未变化网页的更新所花费的系统资源和处理时间。本文实现的基于人工神经网络和MD5相结合的增量更新的Web信息采集原型系统达到了预期的效果。
其他文献
人脸表情识别技术是生物特征识别、情感计算、心理学、机器视觉等领域的一个极富挑战性的交叉课题,是近年来的一个研究热点。尽管人脸表情自动识别技术在各种潜在应用的推动下
信息系统是现代企业管理系统的重要组成部分,建立合理的信息系统成为当务之急。体系结构决定了一个系统的主体结构、宏观特性和具有的基本功能及其特性,因此信息系统体系结构是
人脸检测作为人脸信息处理中的一项关键技术,近年来成为模式识别与计算机视觉领域内一项受到普遍重视、研究十分活跃的课题。本文首先提出了人脸检测的一个新的应用领域——电
移动自组网是由一系列带有无线收发装置的动态节点所形成的一个多跳临时性自治系统。作为一个的不需要固定基础设施特殊的无线网络,它在民用和军事通信领域占据一席之地提供了
目前基于SOA架构开发的项目越来越多,在这种架构模式下需要应用的一项技术就是Web服务,大量Web服务的出现对服务的发现提出了挑战。传统的基于关键字的服务发现机制已经不能
手语是聋哑人使用的语言,由手形动作辅之以表情姿势而构成的比较稳定的表达系统,是一种靠动作、视觉进行交流的特殊语言。中国有上千万聋哑人,而手语作为聋哑人的第一自然语言运
近年来发展起来的应用层组播继承了传统IP组播的一些特点,但是由于作用位置由路由器转移到了终端主机上,通过在网络层采用IP单播实现数据传输,从而取消了对组播路由器的依赖,有效
随着空间数据库技术的不断发展,定性的空间推理在地理信息系统中的应用也越来越丰富。作为空间推理领域的重要分支,主方向关系的推理吸引了众多专家学者进行深入的探索研究。
论文对HLA协议和RTI平台的体系结构进行了简要概括,对基于HLA/RTI的应用系统的设计和实现作了简单介绍,就其中的一个组成部分一作战单元仿真成员做了详细的讨论,并已在实际的工程
决策树学习是广泛被人们使用的一种学习方法。本文抓住决策树新面对的动态模糊性问题。引用动态模糊集基本理论,(1)提出基于DFS及相关理论的动态模糊决策树(DFDT);(2)提出了