论文部分内容阅读
目前,通信领域中手机接收垃圾短信的数量成螺旋式增长,该现象如不加以防范,将导致垃圾短信泛滥,严重骚扰手机用户,并且为人们正常使用手机进行交流和沟通带来了极大的不便,有些违法短信和不良短信也带来了一定的社会危害。本文主要研究并提出了一种适用于对互联网发送的垃圾短信进行监控和过滤的解决方案,该方案根据短信日发送频度、短信内容、短信长度等特征,采用模糊匹配和频度监控相结合的方法进行短信监控和过滤。系统中根据笔者观点提出了内容与变换、关键字加权控制频度等方法,通过在机房多次实验,结果表明,本系统在过滤准确度和误判率两方面的幅度指标分别提高了22.1%、30.3%。在短信资料方面,本文采集了5000条短信,包括正常短信和垃圾短信并且从中选择了部分短信内容进行深入分析,总结提取了正常短信和垃圾短信的特征,为以后的过滤研究打下了基础。同时这些短信资料也将作为实验系统的研究和测试资料。在系统框架设计中,首先考虑了实现途径和过滤原则,并简要介绍了当今治理垃圾短信最常见的两种算法,分别为:根据文本内容进行过滤、对包括黑名单的短信号码的短信进行过滤(黑名单过滤)。通过对这两种基本算法的介绍,指出了它们存在的不足。并且根据手机用户对垃圾短信的过滤需求,提出了垃圾短信的过滤原则,即“宁可放过,不能错杀”。这样的原则在一定程度上增加了判断垃圾短信的难度,会造成对垃圾短信的误判和漏判。在核心过滤算法方面,借鉴了目前成熟垃圾短信的过滤方法,根据当前垃圾短信反过滤的新动向以及针对现有垃圾短信过滤算法的缺点,提出了这种高效垃圾短信过滤系统,选取了三种过滤方法,即短信内容预处理算法、关键字加权控制发送频度算法、短信内容长度对发送频度的修正算法。其中,短信内容预处理算法,可以有效地解决普通关键字匹配算法容易受内容替换干扰的缺点;另外,为了避免仅仅依靠关键字过滤容易引起的误判,系统采用了关键字加权控制发送频度的算法,使误判率明显降低;再次,结合垃圾短信的长度特征来调整它的发送频度。