论文部分内容阅读
伴随 Web的飞速发展,其带来的问题也日益显现,Web内容中出现了各种各样的不良信息,已经开始侵入人们的生活,严重玷污了网络环境,有悖于和谐社会的理念。由于很多 Web没有传统媒体的监督审查和监管体系,因此防止和控制非法信息传播,对其进行内容过滤已经成为目前网络内容安全研究的重点问题,对Web内容的管理、监督、审计已成为信息安全技术的热点内容之一。 本文通过对Web内容审计领域相关技术的深入研究和分析,提出了自己的研究成果。首先介绍了Web内容审计的研究现状,分析了Web内容安全研究的发展方向。然后详细介绍了 Web内容审计中涉及到的相关技术,如:信息过滤技术的原理、网页去噪、特征提取和常用分类方法等。在认真分析网页噪音去除对基于 Web内容处理系统的重要性和网页去噪理论的基础上,阐述了一种利用数据库进行网页去噪的有效方法及其实现步骤,该方法在处理网页噪音时不用将内容全部放入内存中,完全根据数据库中网页内容进行消除噪音操作,达到净化网页的目的。基于网页的布局结构信息和当前网页开发过程中的模板意识,针对目前文本表示模型对向量空间模型的依赖性以及文档频率特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现二值分类功能。运用数据库原理、C#编程语言等技术设计了Web内容安全审计系统。给出了审计系统的处理、总体设计等,实现了对Web内容安全的审计。实验验证和分析结果表明基于本文理论分析设计的审计系统是可行的而且是有效的。 互联网和手机媒体大量传播的非法信息,既引发公众的愤慨,更引起公众的思考。对 Web内容进行审计已经成为人们越来越关注的重要问题之一,对于网络信息规范管理及和谐社会的建立具有十分重要的社会意义。