论文部分内容阅读
随着电子邮件在世界范围内的广泛应用,垃圾邮件作为商业广告、恶意程序或敏感内容的载体,对系统安全和人类生活所造成的影响越来越严重,反垃圾邮件问题作为一个全球性的课题具有重要的现实意义。另据统计表明,目前我国已经成为第二大垃圾邮件受害国,因此,针对于中文垃圾邮件的识别与过滤更显得尤为重要。
邮件过滤技术是反垃圾邮件的重要手段,目前的垃圾邮件过滤技术主要分为两种:基于规则的过滤和基于概率的过滤。基于规则的过滤从邮件的结构出发,通过对垃圾邮件特征的总结制定相应的过滤规则,但是垃圾邮件的表现形式变化迅速,规则的维护并非易事。
基于概率的过滤技术是从邮件信体包含的内容出发,利用文本分类方法对邮件类别进行判断。由于信体是垃圾邮件信息的最终载体,因此基于概率的过滤具有较高的准确性,成为当前邮件过滤技术的主流。
论文对基于概率的邮件过滤技术进行讨论,其中着重研究贝叶斯算法及其相关模型,详细介绍了朴素贝叶斯方法,最小风险贝叶斯方法的原理。论文在贝叶斯方法现有的二项独立模型和多项式模型的基础上,结合最小风险贝叶斯方法的思想,提出一种新的更加完善的贝叶斯分类器构造模型:改进贝叶斯模型。实验表明,此模型具有较好的分类准确率和查全率。
论文结合邮件分类器的实现与测试,给出一种垃圾邮件过滤系统的设计结构及具体实现。系统以分类器为核心,利用Linux环境下的开源软件Sendmail作为邮件服务器的主体,通过对Sendmail提供的Milter接口的开发和扩展实现邮件过滤的功能;邮件分类器模块以插件形式嵌入Milter,并可根据需要更换或添加其他分类算法;系统采用先进的实时中文分词技术和邮件解码技术,使其更好的适用于中文邮件的分类工作。论文最后对系统的整体性能进行了联机测试,给出系统在分类性能以及时间效率两方面的测试结果。