论文部分内容阅读
伴随着信息技术的快速发展,网络成为了人们的一种社交平台,人们的生活、工作及学习也变得越来越网络化,电子邮件作为常用的网络交流工具,尤其是在工作中受到了广泛的应用。但近年来伴随着网络的发展,垃圾邮件问题也逐渐加重,给用户的工作产生了不必要的麻烦。在《反垃圾邮件状况调查报告》中揭示了垃圾邮件带来的诸多危害,主要体现为信息泄漏,安全性较差;浪费用户时间,影响工作效率;占用网络资源造成资源浪费等问题。针对这些情况,现有的垃圾邮件过滤技术并不能有效快速准确的解决,因此如何提高垃圾邮件过滤性能值得进一步的研究。 现有的垃圾邮件过滤技术存在的问题有计算复杂度较高,误判率较高等问题,不能达到人们所期望的程度。朴素贝叶斯算法凭借其计算简单等优势在垃圾邮件过滤中得到普遍应用。但其条件独立性假设对属性的决策作用产生极大的影响,因此属性加权朴素贝叶斯算法产生,基于属性加权的思想,如何优化权值,更好地发挥属性的决策功能至关重要。目前,群智能优化算法在参数寻优中有很好的效果,故本文将选择群智能优化算法果蝇优化算法(Fruit Fly Optimization Algorithm, FOA)算法对属性权值进行寻优,发挥属性的真正决策性。 除此之外,本文为了更加增强FOA算法的全局寻优能力,提出了一种新的算法——SAFOA,该算法的主要思想是将模拟退火算法(Simulated Annealing, SA)与果蝇优化算法进行融合,通过判断果蝇优化算法获得的味道浓度方差大小,以确定是否陷入局部极值,若认为陷入局部极值则采用模拟退火算法进行寻优,从而跳出局部极值,反之,继续执行果蝇优化算法寻优。通过在测试函数中的测试实验验证,SAFOA算法能获得较好的效果,同时,以SAFOA替代FOA算法应用到垃圾邮件过滤中寻找最优权值。 为了验证算法在垃圾邮件过滤中的应用效果,采用中国教育和科研计算机网紧急响应组(Data Sets of Chinese Emails,CCERT2005-jun)及部分自己的邮件内容作为数据集进行测试。分别应用FOA算法与SAFOA算法对属性权值寻优,实验测试结果与原始朴素贝叶斯算法(Native Bayes, NB)及加权朴素贝叶斯算法对比,得出结论为通过FOA算法或SAFOA算法的优化后的NB算法在垃圾邮件过滤中的准确率和误判率均得到提升,验证了权值优化确实产生了积极作用。另外对比 FOA-NB算法与SAFOA-NB算法,SAFOA-NB的准确率和误判率优于FOA-NB算法,虽然提升程度并不十分明显,但SAFOA-NB算法每次得到的结果较为稳定,间接性的体现权值获取的稳定性。