论文部分内容阅读
近年来,垃圾短信问题日益严重,不仅给电信运营商,也给整个社会造成了很大的负面影响。各电信运营商,纷纷出台各种垃圾短信过滤系统,以治理垃圾短信的泛滥。目前主要采用的垃圾短信判定方法包括:发送流量判定、内容关键字判定和根据被叫方号码特征判定。这些方法虽然对垃圾短信的治理有一定的效果,但也存在着明显的缺陷和不足。本文针对现有短信过滤技术的不足,在深入剖析了原有的过滤技术的基础上,提出了更有效的基于短消息内容语义智能分析的方法来判断垃圾短信,本文主要完成的工作和创新点包括以下几个方面:1.探讨了垃圾短信过滤问题的研究现状,总结出目前运营商主要采用的垃圾短信判定机制及其利弊。2.设计了一个基于内容的短消息智能分析系统,制定了系统的整体结构、各模块的主要功能和系统的处理流程。3.实现了流量门限分析、关键字处理和内容智能分析三个主要功能模块,提出一种特定的时间回溯算法,统计用户发送垃圾短消息的流量。4.提出了一种将朴素贝叶斯算法与支持向量机相结合的分类算法。朴素贝叶斯方法具有速度快、效率高的特点,可用于在线分类。而支持向量机分类精度高,但面对大规模短消息文本,收敛速度较慢,可用于离线分类,并以反馈的方式,更新短消息特征样本库。通过实验证明,相比传统方法而言,使用改进算法设计实现的短消息智能分析系统,成功提高了短消息分类的智能性、可靠性、实时性和准确率。本文提出的基于内容的短消息智能分析系统是对当前短信过滤系统的一种智能化改进和完善,具有十分广阔的工程应用前景。