论文部分内容阅读
随着移动互联网和移动应用的发展和普及,互联网信息量爆炸式增长,.给信息质量的监测和过滤带来严峻的考验。现有的网络监控系统主要针对已经生效的网络信息,不良信息仍然有时间在网上传播。有些应用本身可以了完成简单的信息过滤,但大多采用的是在数据库中建立黑名单的方式。这种方式对异形敏感词识别效率很低,且需要的存储空间较大,效率较低。针对网络不良信息过滤存在的这些问题,本文从信息预处理和模式匹配算法两个方面着手研究。首先,总结了经典的匹配算法,并通过实验对算法的效率进行对比分析,最终采用WM算法来实现本文的研究成果。其次,研究了中文文本预处理相关技术,分析总结了常见的敏感词干扰方法,并提出相应的预处理方法。最后,根据应用场景的需求分析,设计了一套在信息源头完成敏感词过滤的模块,并对WM算法的参数进行改进,提高了算法在关键字过滤中的时间效率。本文的研究成果主要有以下几点:提出了“信息源头过滤”的理念;对WM算法进行参数改进,提高了在敏感词过滤中的时间效率;设计并实现了一个可复用的、用于信息源头过滤的模块,并通过实验验证了模块具有良好的性能表现。其中,模块包含两个部分:文本预处理部分、匹配过滤部分。文本预处理可以实现经特殊字符、拆分字和繁体字处理的异形敏感词的还原;匹配过滤部分则针对不同敏感等级的信息实现不同的处理。该模块具备以下功能和特点:1.自动处理并还原含特殊字符、拆分字、繁体字的异形敏感信息;2.可以实现信息生效前的快速过滤处理;3.根据不同的敏感等级处置敏感信息;4.具有良好的过滤成功率、时效性、抗压性和复用性。本文的研究成果,可以实现在网络信息入口处设置了一道防线,使得大部分敏感信息在生效前就被过滤,从根本上切断了这部分信息的传播途径,做到尽早、尽可能多地阻断和过滤,对网络信息质量的控制具有良好的应用效果。