论文部分内容阅读
电子邮件因为其方便、快捷、高效等优点,已成为人们互相交流、获取信息的重要工具。然而,大量垃圾邮件的出现消耗了网络资源,并对网络安全造成了威胁,给用户造成了巨大的损失,因此,研究垃圾邮件过滤有着十分重要的意义。目前,基于内容分析的文本分类技术被引入邮件过滤技术中,并已逐步称为研究的热点。本文对基于内容解析的垃圾邮件过滤技术进行了深入研究和分析,指出了特征选择算法和贝叶斯分类方法的缺陷,提出了改进方法。特征选择作为基于内容的垃圾邮件过滤技术中的重要环节,对过滤的精度、效率及安全性有着重要的影响,通过分析和对比几种常用的特征选择算法,本文采用信息增益方法对文本特征进行选择,针对特征项之间条件独立性假设带来的严重特征冗余现象,引入粗糙集理论,利用求解属性约简的方法消除冗余,提出了基于粗糙集和信息增益技术的特征选择方法。实验结果表明,该方法具有可行性,能够有效的消除冗余,获得更具代表性的特征子集,从而提高邮件分类的准确率和过滤的安全性。分类器的好坏对过滤的精度、效率及安全性起着直接的决定作用,本文在分析和对比几种常用的文本分类算法的基础上,采用朴素贝叶斯方法训练分类器,并对朴素贝叶斯方法和贝叶斯网络方法进行了对比和分析,针对朴素贝叶斯方法条件独立性假设过于苛刻的缺陷,结合贝叶斯网络方法,提出了两级贝叶斯网络分类算法。同时,考虑到合法邮件被误判的风险,引入风险因子λ,提出了基于最小决策风险的两级贝叶斯网络分类方法,有效的确保了合法邮件在过滤过程中的安全。最后,给出了基于贝叶斯方法的邮件过滤模型,并完成了基于最小决策风险的两级贝叶斯网络方法的原型系统设计与实现。图20表7参43