【摘 要】
:
随着网站的维护和发展,尤其是网页的链接维护和删除,致使在网站服务器上产生越来越多的孤立文件(Isolated Web Files, IWF)。孤立文件存在于WEB服务目录中,具有完整有效的URL
论文部分内容阅读
随着网站的维护和发展,尤其是网页的链接维护和删除,致使在网站服务器上产生越来越多的孤立文件(Isolated Web Files, IWF)。孤立文件存在于WEB服务目录中,具有完整有效的URL地址。通常该文件不能通过正常的超级链接或非磁盘文件遍历方式的网站搜索结果所取得,而仅能输入准确URL地址进行访问。孤立文件不仅浪费服务器的存储空间、危害系统安全,而且可能导致泄密、引发著作权纠纷或侵犯隐私等问题发生。使用其提供的错误信息指导实践可能带来不可预期的后果。为使网站内容保持完整性和可控性,需要研究WWW孤立文件的形成原因及发现机制。本文在分析孤立文件成因的基础上,提出判断孤立文件的机制:在网站任一静态网页的HTML源代码及网页资源来源数据库记录中均不含有对该文件的引用;在WEB日志中含有对该文件的有效引用则为相对孤立文件(Relative Isolated Web Files, RIWF),否则是绝对孤立文件(Absolute Isolated Web Files, AIWF)。判断孤立文件时,首先遍历WEB发布目录,得到全部文件清单并保存在数据库中;然后遍历服务器上静态网页HTML源代码及数据库相关记录,将全部URL保存在数据库中;接着将WEB文件清单和URL记录进行比对,在URL记录中没有找到的WEB文件即为孤立文件。最后将孤立文件与WEB日志进行对比,找出相对孤立文件和绝对孤立文件。对网页源代码的分析,需要采用正则表达式,因此本研究构造并运用了适合URL分析的正则表达式。基于上述方法,将孤立文件发现机制应用于微软IIS服务器的WEB环境,采用微软.net技术实现了孤立文件的发现。本文也对如何避免产生孤立文件、处理孤立文件过程中可能会遇到的各种问题进行了探讨。
其他文献
伴随着网络技术和计算机技术的飞速发展,全球的数字化浪潮带来了数字信息的爆炸性增长。企业和政府重要部门在信息化的过程中积累了大量的数据,然而作为主要存储设备的磁盘目
目前,多数云工作流调度算法只考虑用户的单个需求,通常采用启发式算法解决单个目标的优化问题。从用户角度,运行时间和运行成本是两个最重要的性能指标,他们希望提交的应用在
网络建模是指建立正式的网络描述与模拟,可实现对未来网络行为的预测。网络预测对网络流量分布、规律的掌握,可以预测网络的发展状况,有助于网络管理和决策。目前网络行为的
集成了传感器技术、微机电系统技术、无线通信技术和分布式信息处理技术的无线传感器网络(wireless sensor networks, WSN)是一种全新的计算模式,是继Internet之后将对21世纪
近几年,道路交通伤害已经成为世界上人员伤亡的一项主要原因。交通事故不仅给人们带来了巨大的伤害,而且也对经济、环境产生了重大影响。驾驶员的疲劳驾驶已经成为交通事故发
近些年来,网络模拟得到了广泛的研究并取得了一定的进展,并且已成为研究网络的重要手段。随着计算机网络的快速发展,所需研究的网络规模越来越大,而大规模网络模拟所需的大量
随着Internet的普及和飞速发展,万维网累积了大量的信息资源。它作为一个巨大的资源库和知识库,与人们的生活联系越来越紧密。通过万维网看新闻、写博客、查找资料等等,已经
网格计算技术是近几年来出现的新兴技术,网格系统可以最大限度地利用和共享分布式资源。网格门户是对网格资源和服务内容聚合显示的一种Web应用。网格门户屏蔽了网格复杂的内
沥青混合料检测技术在沥青路面使用中具有重要的理论意义和实用价值。传统的沥青混合料检测方法多为手工操作方式,程序复杂、费力费时,并且检测结果受人为因素干扰较大。因此
随着互联网的高速发展,网络的商业价值也越来越多的被人们所开发出来。于是,一些人为了利益,开始在网上发布一些不健康的内容,这些内容很容易让人上瘾,而且严重违反了我国的