论文部分内容阅读
随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们每天收到很多不请自来的垃圾短信,垃圾短信危害社会安全、毒害社会风气、影响用户的正常生活。规则过滤、黑—白名单和基于关键词匹配的内容扫描等技术都是目前垃圾短信过滤主流技术。为了解决垃圾短信给我们的日常生活带来的烦恼,本文首先从垃圾短信的定义、特征、产生的原因、危害及我国当前垃圾短信状况做了详细的分析和介绍,对当前短信分类技术的现状进行了概述和分析;其次介绍了3种中文分词方法、4种文本表示方法、4种特征权重赋值方法、7种特征选取方法和7种具有代表性的文本分类算法;最后在此基础上,采用了改进的贝叶斯分类方法结合黑白名单过滤机制实现对短信的过滤,进行了详细的实验论证,实验中先对短信进行分词和停用词过滤等预处理,再采用DF等特征提取方式,训练分类器,优化分类器参数后进行短信测试,详细记录实验过程,分析数据,达到了较好的分类效果,分类器同时可以根据新的训练集,训练出个性化的分类器,适应短信变化,满足用户的个性化需求。通过实验证明,改进贝叶斯算法能在正确分类短信的同时,减少了正常短信的误判率。具体地说,工作内容主要包括以下几个方面:1、介绍了多种特征选取方法,实验中采用了3种特征提取方法,考查了各选取方法的优劣;2、在现有条件下,收集了一定数量的、符合要求的中文短信库;3、在短信语料库的基础上,实现一种提高正常短信通过率的改进的贝叶斯分类模型,并使用贝叶斯分类器应用于自建的短信语料库,分析、比较它的实验性能与效果;4、分类模型可以训练出个性化的分类器,适应短信变化,满足用户的个性化需求;5、根据文本分类的评价标准,通过实验对贝叶斯分类器进行了评估,根据评估结果,设定了分类模型的各项基本参数;6、总结成果,展望未来,为将来的工作打下基础。