论文部分内容阅读
移动通信网络的高速发展,令手机短信成为人与人实时交流信息的重要方式之一,依附手机短信而大量传播的垃圾信息更成为了用户长期的困扰,虽然垃圾短信拦截技术的应用初有成效,但是只针对单一关键字识别垃圾短信以及对重复出现的大量相同短信内容的主叫号码进行过滤。然而不法分子通过广告类、欺诈类甚至违法类等垃圾短信赢得了巨大利益,经过统计发现,为了躲避这种实时策略,违规的垃圾短信生存和传播形态也发生了巨大改变。虽然可以对近期出现的垃圾短信进行统计分析,制定相应的关键字组合和拦截策略,但既要付出巨大人力成本,也只能暂时拦截符合统计规则的垃圾短信,这成为了垃圾短信不能根治的重要原因之一。因此,结合自学习智能分类系统和实时垃圾短信拦截系统,对于长期控制和识别过滤垃圾短信有着重要的意义。本文在充分的理论准备工作前提下,对中文分词、文本分类和关键的统计学习方法做了简要的阐述,确定使用贝叶斯分类方法作为智能分类学习的主要算法。对改进的垃圾短信拦截系统的前期系统需求分析和相应的系统设计做了详尽的描述,尤其在系统功能、系统处理流程和模块设计中,表现出了贝叶斯智能分类系统和实时拦截系统的应用结合的可能性和完善性,并且系统最终生成的系统报表将作为后续垃圾短信分析处理的依据。贝叶斯智能分类系统的测试结果表明,通过对短信文本内容的预处理,使用贝叶斯分类算法可以有效的对短信进行较为准确的类别分类,和人工分类的测试结果进行比对,智能分类系统在处理大批量的短信文本准确率上要高于人工分类。综上所述,基于贝叶斯分类算法的垃圾短信拦截系统,改进了系统自学习能力不足的问题,较大程度的降低了对人工操作的依赖性,对于将来长期跟踪分析垃圾短信变化,以及针对垃圾短信的实时处理手段都有很大的帮助。改进的垃圾短信拦截系统通过实时拦截和非实时智能分析拦截的双重保障,能对短信进行有效的拦截过滤操作,保证了垃圾短信拦截系统上线后稳定运行。