基于贝叶斯算法的垃圾邮件过滤研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:yjcog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,电子邮件成为了现代通信的主要手段。但是同时许多垃圾邮件也在网络中蔓延,给广大用户带来了大量的麻烦。因此能够有效地防治垃圾邮件是一个有重要意义的现实问题。本文首先深入研究了国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件过滤技术做出分析和总结。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于安全认证的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于统计学习的垃圾邮件过滤技术,后两者都是基于内容的垃圾邮件过滤技术。本文研究了基于内容的垃圾邮件过滤算法,主要对贝叶斯算法及其分类模型进行了深入的研究,通过实验方法对PG贝叶斯算法、GR贝叶斯算法和朴素贝叶斯算法进行了详细的分析和对比测试,重点讨论了朴素贝叶斯算法在垃圾邮件过滤中的优点和不足,并针对其不足,通过选择基于卡方分布的特征选取算法进行改进,以进一步提高中文分词的准确性和效率;通过最小风险因子的引入,降低对垃圾邮件的误判风险以减少用户的干预频度,提高识别效率;通过认知学习算法的提出,提高模型的自学习能力,同时极大地降低了高维向量空间垃圾邮件的识别难度,使模型达到了更好的精确率和召回率。本文在基于最小风险的朴素贝叶斯算法的基础上,进一步引入认知学习的理论,从技术上对高维空间向量的垃圾邮件过滤提供了很好的解决方案,实验结果证明,此方法可进一步提高垃圾邮件的识别率,特别是较好的解决了高维特征向量空间的垃圾邮件过滤问题,从而为基于人工智能的垃圾邮件过滤技术的研究打下了基础。
其他文献
信息系统的广泛应用和互联网技术的发展,促进了人们对完整获取分布、异质信息的需求,特别是完整获取半结构化甚至非结构信息的需求,因此促进了数据集成技术的研究。本文在现
社交网络的流行改变了人们的交流方式,越来越多的互联网用户习惯于通过社交网站进行社交活动并分享各类信息。随着移动定位设备的普及,基于位置的社交网络也逐渐流行起来并且
天体光谱蕴含着天体重要的物理信息,通过光谱的研究,人们可以测定天体的成分,确定天体的表面温度,光度,直径,质量等信息。因此,光谱分析在天体和物理学中占有重要地位。LAMOS
Spring与Hibernate等轻量级Java框架的出现,使得只利用普通Java对象(POJOs),就可以建立较大规模的企业级应用系统。应用这些轻量级框架,可以迅速的建立程序模型,以此原型,很容易
目前,移动互联网的发展日新月异,在此基础之上发展起来的电子商务、网上银行和电子政务的安全性也益发严峻。TLS作为主流安全协议,可以在数据通信过程中确保传输信息的完整性
近年来,随着WMN研究的深入及在商业应用的拓展,特别是实时视频业务大量出现的情况下,传统的IEEE 802.11e接入控制协议不能保证网络各业务服务质量QoS(Quality of Service)和
互联网时代极大地改变了人们的生活方式。随着信息技术的快速普及与发展,各类互联网服务,无论是电子商务平台、社交网站抑或是在线视频网站,都在运营中产生了海量的数据。如
多分类器联合,又称多分类器组合、多分类器集成,在模式识别研究中,该技术可以显著地提高模式识别的性能,受到研究人员的极大关注。研究人员已经提出了很多分类器集成方法,且
近年来,随着因特网的崛起和多媒体技术的发展,VoIP已经占有相当比重的市场份额,成为当今电信业和计算机业最热门的话题之一。SIP协议以其灵活性、简单性和可扩展性成为VoIP技
随着无线传感器网络技术的不断发展,其应用日益广泛,桥梁监控便是其重要应用领域之一。桥梁监控中数据采集技术已经成为国内外研究的热点与难点,针对桥梁监控中数据采集的迫切需