基于机器学习的垃圾邮件分类的研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:xieyl2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件开始泛滥于20世纪末期,具有成本低廉,传输便利,诱导性强等特点。某些商业组织利用此契机作为谋取利益的一种手段,肆意传播垃圾邮件。垃圾邮件的广泛传播给人们的工作生活带来了诸多不便与烦恼。大家的收件箱里都会有一些垃圾邮件的存在,它们不仅会占用用户的信箱存储空间,而且会占用用户阅读邮件的时间和精力。同时,用户在处理垃圾邮件时也需要投入大量的时间。垃圾邮件的形式多种多样,也一直随着互联网的发展不断更新,反垃圾邮件工作面临巨大挑战。因此,不断更新垃圾邮件分类和过滤的手段和方法,对改善邮件的使用现状具有重要的现实意义。本文借助数据挖掘工具,并运用机器学习的方法研究了两个方面的内容。所有的分析都是借助R语言编程软件实现的。第一,对整个邮件数据集的文本内容进行研究分析,分别从垃圾邮件和非垃圾邮件两个角度,分析两种文本内容中出现的高频词汇,并且画出两种邮件内容对应的词云图,最后分析高频词的语义和词性,并得出相关结论。第二,利用朴素贝叶斯方法、支持向量机法、K近邻法对7000条邮件数据进行建模分析。本文选取的评价指标为精确率,通过比较三种算法建立的分类器模型,得出本文分类效果最优的是拉普拉斯参数为2.5时的朴素贝叶斯分类模型,精确率能够达到97.1%。本文的创新点主要有以下三个方面:一是通过分析文本内容辅助建立模型进行邮件性质的判断;二是利用多种方法分别建立多个分类器,从多个模型中选择最优模型;三是在K近邻法中,使用十折交叉验证法和对比模型精确率双重方法选择最佳k值。
其他文献
21世纪初,我国开始新一轮的课程改革,随后《义务教育数学课程标准(2011年版)》对数学教学提出了新的要求,产生很多新型教学模式,其中课堂提问是及其重要的课堂活动,如何设计好课堂问题成为上好一堂课的关键。但在实践教学中,一线教师缺少对数学课堂提问有效性的评价工具,不能很好地将现有研究总结的提问策略发挥最大的效益。因此,本研究致力于为教师课堂提问行为评价,提供科学的工具,帮助教师分析和提高提问行为,
深化市场化改革是“十四五”时期加快构建新发展格局的必然要求。通过诠释市场化改革与新发展格局的内在逻辑和作用机理,分析阻碍经济循环的淤点和堵点问题,明确新时期深化市
以现代纺织产品艺术设计的创新为目标,从设计技术、生产工艺及产品结构等三方面展开,分析了传统手工绘制技术在现代纺织艺术设计中的地位及作用;探讨了纺织技术、纺织材料知
筒仓仓顶结构施工难度大、危险性高是筒仓工程施工的关键点。以杭州市仁和粮食储备库建设工程(标段一)新建工程项目浅圆仓仓顶结构施工为例,介绍了通过使用贝雷架结合中心立
本产品是根据祖国医学的扶正固本的理论研制的,主要成分为人参,海马,酸枣皮,北枸杞,肉桂片等,对本配方进行了保健药用的研究,经同济医科大学药学院地药理毒理天灾人祸至采用断乳大白
1前言刺梨(RosaroxburghiTrat)是蔷薇科蔷薇属的野生果树。刺梨营养丰富,其果实、果汁具有明显的营养保健作用。成熟的刺梨果实为黄色,有特殊的香味,肉质较粗糙,果肉粗纤维含量7.5%~8%左右,酸涩,不宜鲜食,目前刺
<正>道教是多神教,玉皇是其诸神明之一。本文通过考述玉皇之源流,阐明玉皇之化生和其在道教诸神明中之品位、职掌、文化意义等。一、道居虚无道作为哲学范畴是老子先提出的。
会议
随着社会的发展,小学教育也呈现出多元化的发展趋势,俗话说"授人以鱼,不如授人以渔",因此当前的小学数形结合中需要转化思想,老师要让学生了解转换数学思想的重要性,建立完善
<正>民间信仰与道教有密切关系。道教最高尊神为三清,即玉清仙境元始天尊,上清仙境灵宝天尊,太清仙境道德天尊(太上老君),他们住天界仙境,也许离人间太高远了,民间影响不大。
会议
【正】 系统自组织的基本演化方式有两类:(1)在平衡态背景条件下,平衡态系统内部及其各要素之间存在近似的线性相互作用,系统整体具有近似的均匀性、对称性和独立性。平衡态