基于朴素贝叶斯决策的邮件分类

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:endest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]由于现在很多的语言证据都出现在电子邮件中,这就需要相关部门运用技术鉴定电子邮件的真实收件人、发件人以及内容的真实性,因此邮件作者识别具有十分重要的意义。我们运用朴素贝叶斯决策对邮件进行分类。我们将分三部分进行求解,即数据预处理、文本的特征表示和特征提取、构造分类模型。邮件的预处理就是去除邮件中冗余的信息,以减少对分类效果的不良影响。运用Python对邮件进行分词和去除停用词的处理。然后用空间向量模型表示文档,使其可以被计算机识别进行机器学习。然后,对邮件进行特征提取,进行降维处理。利用“词袋”模型计算词频,TF-IDF公式计算相对频率;然后考虑文档频率进行特征选择,增加句子长度等有效特征项,得到多样化的空间向量模型,从而提高運行效率。利用朴素贝叶斯决策对邮件进行分类,对于给定的待分类邮件,计算在此项出现的条件下各个类别出现的概率。将此过程分为三步。首先,输入待分类的邮件数据,输出特征属性和特征样本。然后,计算相应的概率一个每个特征属性下该类别的条件概率,输入特征属性和训练样本,对分类器进行训练。最后,将剩余的数据输入进去测试。当分类3人300封邮件时,计算分类正确率为93.33%。为更贴近实际,当分类15人1000封邮件时,计算分类正确率为70.6%。改变参数,进行灵敏度分析,进行训练测试,发现准确率无太大变化,证明了朴素贝叶斯决策的稳健性。同时,将贝叶斯决策与基于粒子群优化算法的神经网络算法对比,发现贝叶斯决策的分类效果要优于神经网络,且具有普遍适应性。
  [关键词]数据预处理;特征提取;空间向量模型;朴素贝叶斯决策;邮件分类
  中图分类号:C912 文献标识码:A 文章编号:1009-914X(2018)48-0361-01
  我们被要求根据已给的邮件信息识别作者,可以类比垃圾邮件的分类问题,将不同的邮件与不同的作者对应起来。我们需要建立一个模型去识别不同作者的不同语言风格特征,而对于作者的语言风格特征,我们至少有三种理解:用词频代表作者的语言风格特征,不同的人对通过一词的使用频率是不同的;句式长短也可以反映不同人的写作特点;每个作者偏好的语法结构也有所不同,包括复杂句、简单句、感叹句等。这里我们只考虑词频对作者语言风格的影响。但是由于邮件是用文本表示,不能直接用计算机进行处理,所以我们需要将其表示成计算机易于识别的数学语言,从而对邮件进行分类。然后,根据建立好的模型,识别出待检测邮件的作者
  一、预处理步骤
  电子邮件是一种半结构化文件,包括邮件主题,发件人,收件人,发件日期,内容,附件等。与普通文本文档相比,除了有头结构外还有非结构化数据,如图片,还包括大量的无关信息,因此,在对邮件进行分类识别作者之前,我们需要把邮件转化为结构化数据,同时,运用机器学习语言进行处理。
  我们采用空间向量模型将其表示成特征项以及权重的向量,但是由于邮件信息所包含的词汇量很大,如果直接进行转化,不仅起不到降维的目的,还会拖慢运行速度,导致模型运行的时间过长,而且由于没有对词汇加以区分,提取出可以代表作者语言风格的词汇,会导致测试结果与实际结果有较大误差。因此,在此之前要进行一系列的操作,如分词、去停用词、并利用“词袋”模型进行处理,进行特征项的提取。
  二、构造朴素贝叶斯分类器
  贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。
  而朴素贝叶斯方法,是指特征条件独立且基于贝叶斯定理的分类方法。根据贝叶斯定理,对一个分类问题,给定样本特征x,则样本属于类别y的概率是
  三、模型求解
  我们采用空间向量模型表示预处理之后的文本,使其可以使计算机识别,进行机器学习。但由于维数较大,且将其全部作为特征项会使运行速度慢,分类精度下降,我们对文本进行特征提取。
  为了将数据输入到贝叶斯分类器中进行训练,需要将文本各类特征信息转化成向量形式,为了完成转化这一过程,我们需要根据“词袋”模型生成词向量,并将得到的特征矩阵进行转置,输入到贝叶斯分类器中进行训练,进行一一对应,并输出作者代号。
  为了获得合理的数据,我们采用python的nltk包来处理发送邮件集,生成词向量。我们用Nltk中的corpus模块中的stopwords来去除公认的英语中的153个停用词,去除之后得到降维后的向量。
  根据贝叶斯算法的相关原理,我们利用python中的机器学习包sklearn中的naive_bayes模块。该模块下的MultinomialNB子模块集成了朴素贝叶斯算法实现多分类问题的方法。利用“词袋”模型提取的词向量、利用python自然语言处理包nltk包下的tokenize模块对句子的词作标识化处理得到文章的总句数、总词数与平均单词数作为特征向量。
  当分类3人300封邮件时,计算分类正确率为93.33%。为更贴近实际,当分类15人1000封邮件时,计算分类正确率为70.6%。改变参数,进行灵敏度分析,进行训练测试,发现准确率无太大变化,证明了朴素贝叶斯决策的稳健性。
  四、对比分析
  再使用神经网络算法进行对比,粒子群优化算法训练神经网络的实验中,假定粒子群优化的神经网络的最大迭代次数为20次,粒子长度设置为700,惯性权重w=0.4,0.9,最大训练次数设置为100,种群数为8,最大速度的值为1,范围为(-1,1)。
  选取240封邮件作为训练样本,输入神经网络进行训练,对余下的60封邮件进行同样的处理,即分词、去停用词、提取特征值、降维等操作后,表示成词向量,输入到训练好的神经网络中进行测试,得到测试结果,输出作者代号。得到测试结果。实验过程中仅选择300封邮件3位作者进行分类训练测试,多次试验结果均不相同,且正确率为 之间,正确率较低。在增大样本数量时,训练速度过慢,不具有实用普适性。
  而采用朴素贝叶斯分类方法时,多次对同一训练集和测试集,训练测试结果不变。可对大量样本进行训练测试,且正确率结果稳定在 以上,运算训练速度快,该方法具有实用普适性。
  参考文献
  [1]毛承胜.基于贝叶斯决策理论的局部分类方法研究及其应用[D].兰州大学,2016.
  [2]马建斌.基于SVM的中文电子邮件作者身份挖掘技术研究[D].河北农业大学,2004.
  [3]常淑惠,曾强,滕桂法,马建斌,苑迎春,孙新胜.中文电子邮件作者的身份判别[J].河北农业大学学报,2006,01:104-106.
其他文献
[摘 要]铝框木模板作为当今应用十分广泛的模板技术,在预制装配结构中施工中十分重要。由于铝框木模板具有质量轻、安装简单、施工效率高、节能环保等优势,顺应了“绿色建筑”的建设发展要求。基于此,本文重点探究铝框木模板在预制装配式结构中的应用。  [关键词]铝框木模板;预制装配式结构;关键技术;应用  中图分类号:G712 文献标识码:A 文章编号:1009-914X(2018)48-0354-01  
期刊
[摘 要]随着我国建筑行业不断发展,当今铝框木模板施工技术在工程建设中的应用愈加广泛。铝框木模板具有周转次数高、施工周期短、混凝土成型好、操作简单等多项优势。基于此,本文重点对铝框木模板施工技术相关问题展开阐述。  [关键词]铝框木模板;设计;安装;问题  中图分类号:G712 文献标识码:A 文章编号:1009-914X(2018)48-0356-01  引言  铝框木模板作为一种新型的建筑模板
期刊
中图分类号:TP3 文献标识码:A 文章编号:1009-914X(2018)48-0357-01  锦州采油厂采油作业四区 4#、5# 5×20 t原油储罐属浮顶油罐。目前9#、10#油罐浮顶外表面、罐壁板上端内外侧、抗风圈的上下表面等约90%面积发生层状起皮和片状锈蚀现象,其余外防腐层未返锈的漆膜已粉化失效,局部单盘板腐蚀深度接近或超过原板厚度的10%,需要进行修理。而罐区其余储油罐仍处于运行状
期刊
[摘 要]在煤矿巷道施工中,大倾角上山施工一直是施工安全管理的难点和关键。 文章介绍了严围沟煤矿大围沟煤矿建设的技术措施,屋面管理措施和安全管理措施。  [关键词]大倾角;煤层;上山掘进施工;安全  中图分类号:G712 文献标识码:A 文章编号:1009-914X(2018)48-0342-01  1.前言  在煤矿开采施工的过程中,要根据煤矿的需求采用不同的挖掘进度,提升安全管理水平。  2.
期刊
[摘 要]鸟害情况目前普遍存在于变电站、高压线塔等电力设施,严重影响电力系统的安全运行。在提倡绿色电力的今天,如何在不伤害鸟类的情况下,使鸟类远离变电站,从而创造出人与自然和谐共处的环境。 因此,我们研制了新型激光驱鸟装置并投入试用, 驱鸟效果显著且能保护自然环境。  [关键词]变电站;防鸟;自然环境保护;协调发展  中图分类号:TP3 文献标识码:A 文章编号:1009-914X(2018)48
期刊
[摘 要]随着网络发展形态的多样化产生,视频传输形态也在随之发生改变,传统的视频传输中,其主要是需要通过一定的信息技术作为传输载体,而流媒体形态的出现为网络视频频传输提供了新的发展方向,能够实施对视频录制场所与区域现场进行同步观察与信息获取,十分方便简易。本文主要在流媒体技术的产生上,对无线通信下网络视频的传输进行更深入的了解与分析,找出其根本发展优势与组成部分。  [关键词]流媒体技术;无线通信
期刊
[摘 要]电力的作用非常的大,尤其是对我们的生活等方面有着巨大的影响,电力的正常运行,变电站是重要的组成部分,目前我国而言,变电站继电保护配置原因等方面存在很大的区别,从而给其运行等各个方面造成一定的负面影响,本文针对变电站二次继电保护设计方法及问题进行了论述,希望有一定的参考价值。  [关键词]变电站;继电保护;设计方法  中图分类号:G712 文献标识码:A 文章编号:1009-914X(20
期刊
[摘 要]2016年全国烟草工作会议将降本增效列为行业“十三五”发展的“五个基本定位”之一,凸显新常态下降本增效工作对行业和企业发展的重要性。为了进一步实现卷烟企业提质降耗、降低成本,针对卷烟除尘风机电耗较大的问题,分析了变频调速控制的节能原理,以及风机节能计算方法,基于PLC的变频控制技术为节能改造创设了可行的途径。  [关键词]风机;PLC;变频控制  中圖分类号:C912 文献标识码:A 文
期刊
[摘 要]随着我国经济实力等各方面的提升,各种新鲜事物逐渐出现在大众的视野中。而在这些新鲜事物绝大部分的电气化设备都离不开电力的支持。灯泡、风扇、空调等日常家电用用品使得人们也越来越离不开“电”;而手机、灯泡、计算机等多功能电子设备的发明使人们在电力方面的消耗也越来越大,但如今关于我国电力配电方面的相应技术人员及设备存在许多不足之处;因此,在电力配电这方面急需实现“电力配电系统自动化”技术。本文就
期刊
[摘 要]目前,我国经济水平的不断提高,也使得我国人民生产生活的需求不断增多要求也越来越高。这就意味着对供配电网的建设要去也不断的提高,对我国的供配电建设提出了更高的要求。配网的自动化建设系统能够给供配电网提供更加有效的管理和便利的操作,同时还能保证人民的用电安全。本文通过阐述配电自动化系统基本内容,分析现阶段配电网的建设现状,从而分析配电网自动化建设对供电可靠性的影响,并提出一些简单的思考及建设
期刊