论文部分内容阅读
目前,全球范围内的垃圾邮件问题日益严重,不仅严重占用网络资源,威胁网络安全,更对人们的日常生活造成了严重困扰,给传统反垃圾邮件过滤技术带来了巨大挑战。云计算的出现和发展,打破固有模式,提出了新型的分布式并行编程模型和服务应用模式,为反垃圾邮件过滤课题提供了新的思路。本文选取贝叶斯邮件过滤算法作为研究对象,在深入研究了云计算在海量数据处理方面的核心技术之后,针对传统分布式贝叶斯算法实现中存在效率低、前期训练消耗资源大等缺点,对贝叶斯邮件过滤算法进行了改进,设计和实现了一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,还引入反馈学习机制,以适应垃圾邮件的不断更新与变化,提高垃圾邮件过滤的效率。实验结果表明,贝叶斯邮件过滤的MapReduce模型,在保持召回率、查准率和判对率等指标良好表现的同时,提高了过滤的执行效率。在对比不同角色的邮件过滤类型之后,本文采用位于MDA端的邮件过滤方式,并结合贝叶斯垃圾邮件安全性过滤MapReduce模型在Hadoop平台上的实现,设计出一种以邮件服务供应商为主要用户群体的SaaS云过滤服务模式。此模式包含应用业务层、云过滤层和硬件资源层,能为服务用户提供一种便捷、可订购、低成本、安全、可靠的邮件过滤功能。