论文部分内容阅读
当今时代,互联网在人们的生活、工作和学习等方面发挥着越来越重要的作用。然而互联网在为人们提供便利的同时,也在政治、道德与法治等方面埋下了诸多隐患,究其原因,即是因为互联网中泛滥着各种不良信息。本文主要研究怎样在用户和互联网之问构建一个过滤屏障,从而使各种不良信息被阻截在用户视野之外。网页是网络信息重要的载体,本文将其选为研究对象,围绕着如何实现一个实时在线的网页内容过滤系统,本文基于BHO技术开发了一个中文网页内容过滤器,并针对当前的研究现状和存在的问题做了如下工作。网页内容过滤是一种实时分析技术,对算法有较高的要求,笔者通过分析几种常见的内容过滤算法,发现这些算法大多起源国外,对英文字符有较好支持,但对于中文网页而言效果不够理想,尤其是当网页字数较多时,过滤流程耗时较长,影响用户体验。为了提高过滤速度,本文利用哈希函数的思想组织违禁词,将其内容与其存储地址有机结合起来,并采用分词技术中的前缀匹配算法以及二分查找算法对违禁词进行匹配。同时为了加快匹配速度,本文在对网页进行内容过滤之前首先对网页进行结构分析进而去除噪声对网页正文文本的影响。在对网页内容进行过滤时经常会受到一些伪装词汇的干扰,本文利用中文字符编码的规律,通过一次扫描预处理,剔除干扰字符,有效提高了内容过滤的准确率系统采用两级过滤机制,一级过滤为URL网址过滤,通过BHO技术即可从浏览器获取待访问网页的URL,然后将其与黑白名单进行匹配。为提升效率,本文对URL信息进行哈希处理。二级过滤是关键字组合过滤,通过上述算法进行违禁词匹配。本文对该方案进行了详细的设计和实现,并对系统的总体框架、功能模块以及相关过滤算法和所采取的过滤策略进行了详细地介绍。最后,本文对所实现的系统进行了测试,实验证明,该系统具有良好的过滤速度及精确度。