论文部分内容阅读
随着互联网的越来越普及,电子邮件正成为一种最快捷、最经济的通信手段。但是,在用户接收到有用的邮件的同时,各种各样的广告邮件、邮件炸弹以及邮件病毒等都不请自来的充斥着用户的邮箱,使得用户不得不花费大量的时间和精力来处理这些垃圾邮件。此外,这些垃圾邮件在互联网上不分昼夜的大量传输造成了邮件服务器拥塞,降低了整个网络的运行效率,给邮件服务提供商们带来了很大的损失。所以,如何准确的从大量邮件中寻找到所需要的有用邮件,减少垃圾邮件的干扰,已经成为无论是电子邮件提供商还是普通用户都很关心的焦点问题。因此研究开发垃圾邮件过滤系统变的极为迫切。 文章在对电子邮件协议进行深入剖析的基础上,首先讨论了主要的垃圾邮件过滤技术,包括:内容过滤技术、黑/白名单技术和SMTP认证技术。文章对各种技术的优缺点进行了阐述,并对垃圾邮件的过滤技术进行了小结。 接着探讨了垃圾邮件的数学描述,这是本文的重点部分。首先讨论了数学描述的基础,包括:垃圾邮件的发送机制、垃圾邮件的处理观点——“杂物论”、垃圾邮件的判断规则、规则表达式以及朴素贝叶斯模型,这些技术基础是数学描述的理论依据。接着本文在研究现有的各组织和政府部门定义的垃圾邮件的基础上,给出了自己的垃圾邮件定义和分类。垃圾邮件的定义是下一步进行垃圾邮件判断的基础和依据。最后给出了数学描述,分别对邮件的信头、信件主题和正文以及信件的附件进行了数学描述。 在数学描述的基础上,接着讨论了基于多规则的反垃圾邮件系统的研究与实现。本系统采用内容过滤和黑/白名单相结合的过滤技术,最终将一封电子邮件判断为:合法邮件、疑似垃圾邮件和垃圾邮件三个分类中的一种。四川人学硕士学位论文音春:基于多规则的垃圾邮件过诊技术的研究与实现给出了己实现的系统的详细设计,给出了各模块的接口以及流程图,最后提出了反垃圾邮件系统的辅助系统—动态黑名单,并给出了系统的测试结果。 本文的创新点在于对垃圾邮件的信头特征、信体特征等各种特征用数学方法进行了研究,并给出了垃圾邮件特征的数学描述,即给出了判断垃圾邮件的一种数学方法。值得一提的是,本文之所以对邮件的信体特征的数学描述分为信件正文(包括主题信息)和信件附件两部分是鉴于绝大多数垃圾邮件没有附件,那么在使用垃圾邮件特征的数学描述时,绝大多数情况下根本不考虑信件的附件。可见,将邮件的信体特征分成两个部分研究从逻辑上也更易理解。关键字:垃圾邮件数学描述内容过滤黑/白名单电子邮件协议