基于贝叶斯算法的垃圾邮件过滤系统设计与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:x1114891413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的大爆发,电子邮件成为人们日常沟通交流的重要方式,正是因为电子邮件有着无与伦比的优势像收发容易、操作简单、费用低廉等,所以众多网络用户将电子邮件列为他们的首选联系方式。然而伴随着网络邮件的发展,我们的邮箱经常会收到不认识的人或地址发来的邮件。这种邮件以各种广告信息为主例如免费通话、打折商品、各种非法信息等。这些邮件可能与你的工作与生活毫不相干,或就是你十分厌恶的,但类似的这些邮件每天都“执着的”丰富着你的邮箱,打扰着你的生活,有时候它还会带来病毒使计算机中毒导致瘫痪。这种强行进入到用户电子邮箱里的邮件就是所谓的垃圾邮件(UBE,Unsolicited Bulk Email)或者又称为商业宣传邮件(Unsolicited Commercial Email,指以宣传商品为主要内容的邮件)。鉴于垃圾邮件给现代社会造成了极大的危害,研究如何更好的抑制垃圾邮件的滥发变得愈发紧迫,国际化的反垃圾邮件技术一直是人们讨论的热点话题。本论文在基于前人的理论与研究基础之上,系统的学习了电子邮件的理论与国际上的垃圾邮件过滤方法,主要分析的重点是朴素贝叶斯算法对垃圾邮件的分类研究。论文首先介绍了电子邮件的发展历程及电子邮件的工作原理,介绍了电子邮件中常用到的几种协议,比如MIME(Multipurpose Internet Mail Extensions)、SMTP(Simple MailTransfer Protocol)。其次介绍了基于规则的垃圾邮件过滤,分别有发送者邮件地址分析、接收者邮件地址过滤、黑白名单过滤、邮件主题过滤等。这些相关的规则集组成了反垃圾邮件的第一道防线。最后重点介绍了基于内容的朴素贝叶斯算法应用于垃圾邮件过滤,根据朴素贝叶斯算法的不足做出了一些改进。对中文分词的几种获取方法进行了相关的介绍,主要有词典中文分词方法、N-gram方法和人工分词等,然后建立能表征邮件文本内容的特征向量,对已知分类的邮件语料进行系统学习,利用朴素贝叶斯理论对新收到的电子封邮件进行判别归类,最终将电子邮件呈现给用户为垃圾邮件还是正常邮件。最后在理论与相关的技术的结合下,本文给出了一个朴素贝叶斯对垃圾邮件分类的模拟,通过对邮件样本学习进行垃圾邮件过滤,垃圾邮件和正常邮件的比例参考了《中国反垃圾邮件状况调查报告》中垃圾邮件占用户邮件中的百分比,通过实验得到的数据反映了该方法对垃圾拦截的有效性。
其他文献
长久以来,太阳能电池的研究和发展目标一直是降低成本、提高效率,使其比传统化石燃料更具有竞争力。现在利用纳米技术将新颖的纳米材料应用到电池中被认为是制备下一代高效率、
非语言行为是语言行为的重要辅助手段,保持两者语义指向的和谐一致是交际双方都应遵循的一般原则。然而语言与非语言的冲突也会时常发生。当这种冲突是在交际者无意识的情况下
随着世界经济一体化进程的日益加快,中国作为世界经济格局中的重要一员,中国会计准则存在的问题也成为现阶段讨论的重点。本文就中国会计准则的现状、存在的问题进行分析,并
目的:评估阿帕替尼在二线化疗失败的晚期结直肠癌患者中的安全性和有效性。方法:收集2016年1月—2017年12月收治的37例二线化疗失败晚期结直肠癌患者的临床资料,随访4个月。
<正>(一)上汽集团多种车型应用铝镁轻金属实现汽车轻量化上汽集团自荣威950车型发动机罩盖内外板在国内率先实现铝合金之后,君越、君威、GL8、迈瑞宝、新凯越、凯迪拉克CT6、
地理现象的分布具有一定的普遍性,但也存在一些现象的分布由于成因差异而表现其特别的“个性”。本文将以高考试题解析为例,关注地理现象的特殊性的不同表现,探索突破思维定势的
从国家结构形式理论对司法权配置进行研究的核心问题在于:如何通过合理设置司法机构和划分司法权力,满足现代国家对司法公正的追求和最大化实现司法权的制度价值。通过对联邦
茶树广泛种植于热带和亚热带地区,喜温畏寒,低温常会造成其寒害和冻害,引起减产减值以至于死亡。本文从两方面来研究低温对茶叶品质及其理化成分的影响。首先,通过研究人工低
本研究基于我们先前对凋亡素(Apoptin)基因的研究,利用减毒沙门氏菌载体系统,构建了具有肿瘤特异杀伤能力和肿瘤特异增殖能力的重组减毒沙门氏菌。目的:探讨重组减毒沙门氏菌对喉
目的通过比较腹主动瘤腔内修复术(endovascular aneurysm repair,EVAR)与传统开放手术两种不同疗法的优缺点,为临床对不同患者采取不同治疗方案的选择提供一定的材料依据。方法对