论文部分内容阅读
手机短信因具有移动性好、价格低廉、收发便捷和娱乐性强等特点而使人们逐渐习惯于用短信的方式来传送信息和进行沟通交流。但垃圾短信问题也日益严峻。统计显示,自2001年以来,垃圾短信就以非常快的速度在增长。如今,手机用户平均每天收到的垃圾短信数量已经超过了正常短信数量。因此,研究短信的自动过滤具有重要意义。 本文首先介绍了垃圾短信和现在反垃圾短信技术的发展现状,以及短信过滤的基本概念和原理;其次分析和比较了7种特征选取方法、4种特征权重赋值方法和5种具有代表性的文本分类算法;然后重点介绍了贝叶斯分类方法的原理,分析了传统朴素贝叶斯算法在短信过滤中所存在的局限性(合法短信被误判为垃圾短信将可能给用户带来更大的损失),并在此基础上,采用了基于最小风险的朴素贝叶斯短信过滤算法。在自建的中文短信语料库上的实验结果表明,该算法能在正确分类短信的同时,也能减少合法短信的误判率,在对垃圾短信进行分类与过滤时具有较好的性能;最后,对短信分类系统中的反馈学习问题进行了分析与讨论。 具体地说,本文的工作主要包含下列内容: (1) 在目前尚无一个公开的、规范的中文短信语料库的现实条件下,建立一个真实的、规范的、能够适应实验要求的中文短信语料库; (2) 概述垃圾短信过滤问题的研究现状,包括垃圾短信的定义、产生机理、危害以及常用的过滤技术; (3) 详细介绍了文本分类的相关理论和知识,总结比较了常用的特征选择方法、权重计算方法以及可以应用于短信分类的各种文本分类算法; (4) 在现有的文本分类器中,选择NB和KNN两种典型的分类器应用于自建的短信语料库,分析、比较它们的实验效果与性能; (5) 详细介绍了贝叶斯算法,分析了传统贝叶斯算法在短信过滤中存在的局限性,采用了基于最小风险贝叶斯短信过滤算法,使用自建的短信语料库试验该算法的性能,并比较了特征选择方法、权重计算方法、特征数量和阈值对实验结果的影响; (6) 设计了一个客户端短信过滤系统,合理解决短信过滤系统中的用户分类标准动态变化问题和反馈学习问题;