基于信息源头的中文敏感词过滤技术研究与应用

被引量 : 3次 | 上传用户:shgrx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和移动应用的发展和普及,互联网信息量爆炸式增长,.给信息质量的监测和过滤带来严峻的考验。现有的网络监控系统主要针对已经生效的网络信息,不良信息仍然有时间在网上传播。有些应用本身可以了完成简单的信息过滤,但大多采用的是在数据库中建立黑名单的方式。这种方式对异形敏感词识别效率很低,且需要的存储空间较大,效率较低。针对网络不良信息过滤存在的这些问题,本文从信息预处理和模式匹配算法两个方面着手研究。首先,总结了经典的匹配算法,并通过实验对算法的效率进行对比分析,最终采用WM算法来实现本文的研究成果。其次,研究了中文文本预处理相关技术,分析总结了常见的敏感词干扰方法,并提出相应的预处理方法。最后,根据应用场景的需求分析,设计了一套在信息源头完成敏感词过滤的模块,并对WM算法的参数进行改进,提高了算法在关键字过滤中的时间效率。本文的研究成果主要有以下几点:提出了“信息源头过滤”的理念;对WM算法进行参数改进,提高了在敏感词过滤中的时间效率;设计并实现了一个可复用的、用于信息源头过滤的模块,并通过实验验证了模块具有良好的性能表现。其中,模块包含两个部分:文本预处理部分、匹配过滤部分。文本预处理可以实现经特殊字符、拆分字和繁体字处理的异形敏感词的还原;匹配过滤部分则针对不同敏感等级的信息实现不同的处理。该模块具备以下功能和特点:1.自动处理并还原含特殊字符、拆分字、繁体字的异形敏感信息;2.可以实现信息生效前的快速过滤处理;3.根据不同的敏感等级处置敏感信息;4.具有良好的过滤成功率、时效性、抗压性和复用性。本文的研究成果,可以实现在网络信息入口处设置了一道防线,使得大部分敏感信息在生效前就被过滤,从根本上切断了这部分信息的传播途径,做到尽早、尽可能多地阻断和过滤,对网络信息质量的控制具有良好的应用效果。
其他文献
背景与目的:重性抑郁障碍已经成为综合医院住院患者中最常见的精神障碍之一,它不仅现患率高,而且还直接导致患者个人功能水平和生活质量的降低,恶化躯体健康和原有躯体疾病的
玉米赤霉烯酮(Zearalenone, ZEA)是一种非甾体雌激素样作用的霉菌毒素,它广泛存在于世界各地谷类食品中。ZEA具有生殖毒性、遗传毒性和免疫毒性等。然而关于ZEA暴露对雄性动
目的:为临床困难气道处理的培训提供有效工具,本研究使用充气型颈托固定器评价使普通气道变成困难气道的可行性及效果;以及观察Hc可视喉镜应用于模拟困难气道患者气管插管时的
目的对流行性乙型脑炎减毒活疫苗的免疫效果进行分析和探讨。方法选择我院接受的100名满l周岁未接种过乙型脑炎疫苗的儿童作为研究对象,分别采集全部儿童乙脑疫苗免疫前、免
铅、锌矿是我国的优势矿产资源,伴随着铅锌矿需求的扩大,以及地表矿产的日趋贫乏,找矿阶段从上世纪的地表勘探找矿转向向矿山中深部隐伏矿体为主导。本文以《云南省施甸县东
随着社会的发展,各种大型综合性体育赛事、展览逐渐在国内增多,如:2008年北京奥运会、第六届东亚运动会、第九届全国大学生运动会等的的成功举办;2022年中国第二十四届冬季奥林匹
综合分析了PVC地板材料的技术性能及应用优势,总结和介绍了医院采用PVC地板营造舒适医院诊疗环境的具体做法及体会,阐述了PVC地板在我国医院现代建设中的应用和发展趋势。
“晋尚韵”、“唐尚法”、“宋尚意”是清人对晋、唐、宋三代书风的简要评价,基本表明了这几个历史时期的书风演变历程以及各自的特点。宋朝是继唐代之后又一个大统一的王朝,政
<正>【案情】徐某是一家行政单位的公职人员,2017年7月,在驾驶私家车外出为单位办事时撞到行人。交警认定其负全责。徐某请求单位共同承担赔偿责任。这样做有法律依据吗?【支
采用新型捕收剂SF对攀西某辉长岩型钛铁矿进行浮选试验,探索了捕收剂用量、pH调整剂用量、抑制剂种类选择及用量对钛铁矿浮选分离效果的影响,进行了钛铁矿浮选开路、闭路试验