论文部分内容阅读
随着互联网的加速扩张,人们的日常生活也越来越离不开网络提供的各种服务,电子邮件(E-mail)即是其中应用最为广泛的一种。作为应用最早的互联网服务之一,电子邮件的出现大大改变了人们交换信息的方式,使人们之间的交流变得前所未有的迅捷。但随之而来的垃圾邮件问题也给企业和个人带来了巨大的损失和无尽的烦恼。垃圾邮件在我国虽然起步较晚,但发展迅速,目前我国已经成为世界第三大垃圾邮件来源国。目前,国内针对中文垃圾邮件过滤的研究也在如火如荼的展开,本文即是对基于贝叶斯模型的中文垃圾邮件过滤方法的研究。贝叶斯垃圾邮件过滤技术是目前使用最广泛,取得效果最好的垃圾邮件过滤技术。本文针对中文贝叶斯垃圾邮件过滤系统的特点,研究了中文贝叶斯垃圾邮件过滤系统所涉及的三项主要技术:中文分词技术、文本特征选取技术、贝叶斯文本分类技术,并在此基础上设计完成了一个多层整合的垃圾邮件过滤系统,对该系统的大量测试结果显示本文设计的系统比传统的基于朴素贝叶斯模型的系统,无论是垃圾邮件识别的准确率,还是垃圾邮件的查全率都有不同程度的提高。
本文对贝叶斯垃圾邮件过滤模型三个关键步骤进行了改进。首先在贝叶斯决策过程中使用了两步决策过程,这也是本文所实现的系统在结构上和传统基于朴素贝叶斯模型的系统的最大区别所在,由于引进了二次决策过程,并在二次觉得的过程中使用了不同的邮件特征项,本系统避免了一次决策可能产生的很多错误,大大提高了系统的准确率和查全率。其次,在二次决策过程中使用了两种互补的特征选取方法,即充分利用了初次特征选取的结果,又使系统的特征提取方法更加灵活,更能反映邮件的自身特点。最后,本文在前两项改进的基础上,提出了本文自己的特征项更新模型,既充分利用了前述步骤的改进结果,又使系统的特征项更新模块更符合本系统的自身特点,提高了特征项更新模块的效率。