论文部分内容阅读
[摘 要]由于现在很多的语言证据都出现在电子邮件中,这就需要相关部门运用技术鉴定电子邮件的真实收件人、发件人以及内容的真实性,因此邮件作者识别具有十分重要的意义。我们运用朴素贝叶斯决策对邮件进行分类。我们将分三部分进行求解,即数据预处理、文本的特征表示和特征提取、构造分类模型。邮件的预处理就是去除邮件中冗余的信息,以减少对分类效果的不良影响。运用Python对邮件进行分词和去除停用词的处理。然后用空间向量模型表示文档,使其可以被计算机识别进行机器学习。然后,对邮件进行特征提取,进行降维处理。利用“词袋”模型计算词频,TF-IDF公式计算相对频率;然后考虑文档频率进行特征选择,增加句子长度等有效特征项,得到多样化的空间向量模型,从而提高運行效率。利用朴素贝叶斯决策对邮件进行分类,对于给定的待分类邮件,计算在此项出现的条件下各个类别出现的概率。将此过程分为三步。首先,输入待分类的邮件数据,输出特征属性和特征样本。然后,计算相应的概率一个每个特征属性下该类别的条件概率,输入特征属性和训练样本,对分类器进行训练。最后,将剩余的数据输入进去测试。当分类3人300封邮件时,计算分类正确率为93.33%。为更贴近实际,当分类15人1000封邮件时,计算分类正确率为70.6%。改变参数,进行灵敏度分析,进行训练测试,发现准确率无太大变化,证明了朴素贝叶斯决策的稳健性。同时,将贝叶斯决策与基于粒子群优化算法的神经网络算法对比,发现贝叶斯决策的分类效果要优于神经网络,且具有普遍适应性。
[关键词]数据预处理;特征提取;空间向量模型;朴素贝叶斯决策;邮件分类
中图分类号:C912 文献标识码:A 文章编号:1009-914X(2018)48-0361-01
我们被要求根据已给的邮件信息识别作者,可以类比垃圾邮件的分类问题,将不同的邮件与不同的作者对应起来。我们需要建立一个模型去识别不同作者的不同语言风格特征,而对于作者的语言风格特征,我们至少有三种理解:用词频代表作者的语言风格特征,不同的人对通过一词的使用频率是不同的;句式长短也可以反映不同人的写作特点;每个作者偏好的语法结构也有所不同,包括复杂句、简单句、感叹句等。这里我们只考虑词频对作者语言风格的影响。但是由于邮件是用文本表示,不能直接用计算机进行处理,所以我们需要将其表示成计算机易于识别的数学语言,从而对邮件进行分类。然后,根据建立好的模型,识别出待检测邮件的作者
一、预处理步骤
电子邮件是一种半结构化文件,包括邮件主题,发件人,收件人,发件日期,内容,附件等。与普通文本文档相比,除了有头结构外还有非结构化数据,如图片,还包括大量的无关信息,因此,在对邮件进行分类识别作者之前,我们需要把邮件转化为结构化数据,同时,运用机器学习语言进行处理。
我们采用空间向量模型将其表示成特征项以及权重的向量,但是由于邮件信息所包含的词汇量很大,如果直接进行转化,不仅起不到降维的目的,还会拖慢运行速度,导致模型运行的时间过长,而且由于没有对词汇加以区分,提取出可以代表作者语言风格的词汇,会导致测试结果与实际结果有较大误差。因此,在此之前要进行一系列的操作,如分词、去停用词、并利用“词袋”模型进行处理,进行特征项的提取。
二、构造朴素贝叶斯分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。
而朴素贝叶斯方法,是指特征条件独立且基于贝叶斯定理的分类方法。根据贝叶斯定理,对一个分类问题,给定样本特征x,则样本属于类别y的概率是
三、模型求解
我们采用空间向量模型表示预处理之后的文本,使其可以使计算机识别,进行机器学习。但由于维数较大,且将其全部作为特征项会使运行速度慢,分类精度下降,我们对文本进行特征提取。
为了将数据输入到贝叶斯分类器中进行训练,需要将文本各类特征信息转化成向量形式,为了完成转化这一过程,我们需要根据“词袋”模型生成词向量,并将得到的特征矩阵进行转置,输入到贝叶斯分类器中进行训练,进行一一对应,并输出作者代号。
为了获得合理的数据,我们采用python的nltk包来处理发送邮件集,生成词向量。我们用Nltk中的corpus模块中的stopwords来去除公认的英语中的153个停用词,去除之后得到降维后的向量。
根据贝叶斯算法的相关原理,我们利用python中的机器学习包sklearn中的naive_bayes模块。该模块下的MultinomialNB子模块集成了朴素贝叶斯算法实现多分类问题的方法。利用“词袋”模型提取的词向量、利用python自然语言处理包nltk包下的tokenize模块对句子的词作标识化处理得到文章的总句数、总词数与平均单词数作为特征向量。
当分类3人300封邮件时,计算分类正确率为93.33%。为更贴近实际,当分类15人1000封邮件时,计算分类正确率为70.6%。改变参数,进行灵敏度分析,进行训练测试,发现准确率无太大变化,证明了朴素贝叶斯决策的稳健性。
四、对比分析
再使用神经网络算法进行对比,粒子群优化算法训练神经网络的实验中,假定粒子群优化的神经网络的最大迭代次数为20次,粒子长度设置为700,惯性权重w=0.4,0.9,最大训练次数设置为100,种群数为8,最大速度的值为1,范围为(-1,1)。
选取240封邮件作为训练样本,输入神经网络进行训练,对余下的60封邮件进行同样的处理,即分词、去停用词、提取特征值、降维等操作后,表示成词向量,输入到训练好的神经网络中进行测试,得到测试结果,输出作者代号。得到测试结果。实验过程中仅选择300封邮件3位作者进行分类训练测试,多次试验结果均不相同,且正确率为 之间,正确率较低。在增大样本数量时,训练速度过慢,不具有实用普适性。
而采用朴素贝叶斯分类方法时,多次对同一训练集和测试集,训练测试结果不变。可对大量样本进行训练测试,且正确率结果稳定在 以上,运算训练速度快,该方法具有实用普适性。
参考文献
[1]毛承胜.基于贝叶斯决策理论的局部分类方法研究及其应用[D].兰州大学,2016.
[2]马建斌.基于SVM的中文电子邮件作者身份挖掘技术研究[D].河北农业大学,2004.
[3]常淑惠,曾强,滕桂法,马建斌,苑迎春,孙新胜.中文电子邮件作者的身份判别[J].河北农业大学学报,2006,01:104-106.
[关键词]数据预处理;特征提取;空间向量模型;朴素贝叶斯决策;邮件分类
中图分类号:C912 文献标识码:A 文章编号:1009-914X(2018)48-0361-01
我们被要求根据已给的邮件信息识别作者,可以类比垃圾邮件的分类问题,将不同的邮件与不同的作者对应起来。我们需要建立一个模型去识别不同作者的不同语言风格特征,而对于作者的语言风格特征,我们至少有三种理解:用词频代表作者的语言风格特征,不同的人对通过一词的使用频率是不同的;句式长短也可以反映不同人的写作特点;每个作者偏好的语法结构也有所不同,包括复杂句、简单句、感叹句等。这里我们只考虑词频对作者语言风格的影响。但是由于邮件是用文本表示,不能直接用计算机进行处理,所以我们需要将其表示成计算机易于识别的数学语言,从而对邮件进行分类。然后,根据建立好的模型,识别出待检测邮件的作者
一、预处理步骤
电子邮件是一种半结构化文件,包括邮件主题,发件人,收件人,发件日期,内容,附件等。与普通文本文档相比,除了有头结构外还有非结构化数据,如图片,还包括大量的无关信息,因此,在对邮件进行分类识别作者之前,我们需要把邮件转化为结构化数据,同时,运用机器学习语言进行处理。
我们采用空间向量模型将其表示成特征项以及权重的向量,但是由于邮件信息所包含的词汇量很大,如果直接进行转化,不仅起不到降维的目的,还会拖慢运行速度,导致模型运行的时间过长,而且由于没有对词汇加以区分,提取出可以代表作者语言风格的词汇,会导致测试结果与实际结果有较大误差。因此,在此之前要进行一系列的操作,如分词、去停用词、并利用“词袋”模型进行处理,进行特征项的提取。
二、构造朴素贝叶斯分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。
而朴素贝叶斯方法,是指特征条件独立且基于贝叶斯定理的分类方法。根据贝叶斯定理,对一个分类问题,给定样本特征x,则样本属于类别y的概率是
三、模型求解
我们采用空间向量模型表示预处理之后的文本,使其可以使计算机识别,进行机器学习。但由于维数较大,且将其全部作为特征项会使运行速度慢,分类精度下降,我们对文本进行特征提取。
为了将数据输入到贝叶斯分类器中进行训练,需要将文本各类特征信息转化成向量形式,为了完成转化这一过程,我们需要根据“词袋”模型生成词向量,并将得到的特征矩阵进行转置,输入到贝叶斯分类器中进行训练,进行一一对应,并输出作者代号。
为了获得合理的数据,我们采用python的nltk包来处理发送邮件集,生成词向量。我们用Nltk中的corpus模块中的stopwords来去除公认的英语中的153个停用词,去除之后得到降维后的向量。
根据贝叶斯算法的相关原理,我们利用python中的机器学习包sklearn中的naive_bayes模块。该模块下的MultinomialNB子模块集成了朴素贝叶斯算法实现多分类问题的方法。利用“词袋”模型提取的词向量、利用python自然语言处理包nltk包下的tokenize模块对句子的词作标识化处理得到文章的总句数、总词数与平均单词数作为特征向量。
当分类3人300封邮件时,计算分类正确率为93.33%。为更贴近实际,当分类15人1000封邮件时,计算分类正确率为70.6%。改变参数,进行灵敏度分析,进行训练测试,发现准确率无太大变化,证明了朴素贝叶斯决策的稳健性。
四、对比分析
再使用神经网络算法进行对比,粒子群优化算法训练神经网络的实验中,假定粒子群优化的神经网络的最大迭代次数为20次,粒子长度设置为700,惯性权重w=0.4,0.9,最大训练次数设置为100,种群数为8,最大速度的值为1,范围为(-1,1)。
选取240封邮件作为训练样本,输入神经网络进行训练,对余下的60封邮件进行同样的处理,即分词、去停用词、提取特征值、降维等操作后,表示成词向量,输入到训练好的神经网络中进行测试,得到测试结果,输出作者代号。得到测试结果。实验过程中仅选择300封邮件3位作者进行分类训练测试,多次试验结果均不相同,且正确率为 之间,正确率较低。在增大样本数量时,训练速度过慢,不具有实用普适性。
而采用朴素贝叶斯分类方法时,多次对同一训练集和测试集,训练测试结果不变。可对大量样本进行训练测试,且正确率结果稳定在 以上,运算训练速度快,该方法具有实用普适性。
参考文献
[1]毛承胜.基于贝叶斯决策理论的局部分类方法研究及其应用[D].兰州大学,2016.
[2]马建斌.基于SVM的中文电子邮件作者身份挖掘技术研究[D].河北农业大学,2004.
[3]常淑惠,曾强,滕桂法,马建斌,苑迎春,孙新胜.中文电子邮件作者的身份判别[J].河北农业大学学报,2006,01:104-106.