论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。 本文深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。文章重点分析了当前使用最广泛的Na(?)ve Bayes算法,指出其在实际应用中的不足,并采用N-gram理论对该算法进行了改进。同时,针对Na(?)ve Bayes算法性能受邮件特征影响这一特点,本文提出了一个基于结构特征的双层过滤模型。实验证明,改进后的Na(?)ve Bayes算法应用于双层过滤模型之后,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降。文章最后综合各种过滤技术,设计并描述了一个客户端垃圾邮件过滤系统的完整框架。