论文部分内容阅读
随着Internet的迅速普及,电子邮件已经成为了现代通信的主要手段之一。然而垃圾邮件的出现和泛滥也引起了人们的高度重视。邮件过滤已经成为当前研究的热点之一,出现了多种反垃圾邮件技术。基于内容的过滤器通常位于整个过滤系统的核心部分,对性能和准确率都有很高的要求。本文首先介绍了现有的一些基于内容的邮件过滤方法,以及邮件系统的相关理论知识。深入研究了粗糙集属性值离散化,属性约简和支持向量机分类技术,提出了粗糙集-支持向量机(RS-SVM)的邮件过滤解决方案。该方案首先通过对邮件内容进行分词,特征选取和计算特征权重,将邮件数据集表示成向量空间的形式。然后采用属性离散化技术对向量空间的属性权重进行离散化,再用粗糙集约简技术对向量空间进行降维,减少特征项。最后利用支持向量机对新的向量空间进行训练生成过滤器。文中通过对通用的邮件语料进行实验表明了该方案的可行性,并将结果同没有采用粗集约简的支持向量机方法进行了对比。实验结果显示:RS-SVM方案不但保持了与之相当的分类精度,而且具有更快的邮件分类速度,说明该方案可以用来提高过滤器的邮件检测判别速度。最后将该方案应用到客户端过滤当中,给出了原型系统的类图,流程设计,运行界面以及功能介绍。