论文部分内容阅读
互联网的高速发展使其成为世界上资源最丰富的信息网络,其蕴涵的大量共享资源,已成为人类获得信息的重要途径之一。随之带来的信息安全问题也日益严重,这其中不仅包括计算机病毒的威胁,黑客的攻击等,还包括“垃圾信息”的泛滥,网络中大量的反动、色情和暴力的不良信息的入侵,不仅影响我国的精神文明建设,同时也对社会稳定造成了潜在的威胁。
随着网络即时通讯工具的流行(QQ、ICQ、MSN、网易泡泡等),网络垃圾制造者传播不良信息的势头更是有增无减,他们常常变换不同的方式使不良信息逃脱传统过滤方法的阻挠,造成不良信息在网络中继续泛滥。例如:将敏感字(词)用同音字或拼音替代;将敏感字拆分成偏旁部首和非单字两部分;用“&”、“+”等特殊符号将敏感词间隔开。面对瞬息万变的网络信息,如何拦截过滤这些有害信息,怎样有效阻止不良信息蔓延,是网络信息安全研究必须要关注的问题。
本文对信息过滤技术进行了研究,包括信息过滤的特点、分类和组成,当前信息过滤所用到的匹配技术,和这些匹配技术在处理使用网络即时通讯工具环境下的经过变异的中文信息的不足。由于过滤有害信息的关键技术为识别信息中的有害关键词,因此过滤系统的性能很大程度上依赖于精确、快速的模式匹配技术,对此本文还介绍了模式匹配的相关背景和相关技术。
本课题中的信息过滤技术主要用于找出含有不良关键词的网络实时信息并对其进行屏蔽,对此,本文针对经过变异伪装处理的中文不良信息,将变异规则限定在当前中文中最常见的3种变异方法上,在此基础上提出了一个快速而准确的中文信息多模式匹配算法(CWM算法),该算法在WM算法的基础上针对中文字符串进行了改进,使其能够实时地对中文信息进行处理,从而有效的应用在过滤经过变异的中文信息上。基于该算法的信息过滤系统能够支持大量的模式,并且达到了很高的执行效率。该算法在中文信息过滤领域有着广阔的应用前景。