论文部分内容阅读
手机短信因具有移动性好、收发便捷、价格低廉和娱乐性强等特点而成为人们所喜爱的一种通信方式。但垃圾短信问题也日益严峻,受到社会的广泛关注。将文本分类技术应用于短信过滤是解决垃圾短信问题的主要技术之一。
首先,对垃圾短信过滤问题的研究现状,包括垃圾短信的定义、产生机理、危害以及常用的垃圾短信过滤方法作了简单介绍。
其次,对文本分类中涉及到的关键技术,包括文本预处理、文本表示模型、特征权重计算方法、特征降维方式、分类算法和分类结果评估方法等,分别进行了研究、探讨和必要的实验。
再次,重点介绍了贝叶斯分类算法,包括贝叶斯算法的两种模型以及基于最小风险的贝叶斯算法,分析了传统贝叶斯算法在短信过滤中存在的局限性,并在此基础上,采用了基于最小风险的贝叶斯短信过滤算法。
最后,在目前尚无一个公开规范的短信语料库的条件下,建立了一个真实的、能够适应实验要求的中文短信语料库;在比较分析分类算法、权重计算方法、特征选择算法的实验结果的基础上,实现了基于最小风险的贝叶斯短信过滤系统,结果表明,该系统具有较好的性能,不仅能正确对短信进行分类,还能减少对合法短信的误判率;另外,还对短信过滤系统的反馈学习作了简单的分析和探讨。