论文部分内容阅读
电子邮件已成为人们日常通信交流的重要手段,然而垃圾邮件却成了当前的一个严重社会问题,因此,研究一种有效的邮件过滤系统具有十分重要的意义。当前基于内容分析的文本分类技术正逐步应用到邮件过滤技术当中,并成为当前研究的热点。其中朴素贝叶斯技术是基于内容分析的邮件过滤方法中的重要方法。本文利用遗传算法和朴素贝叶斯分类技术实现了一个中文邮件过滤模型,主要工作如下:(1)根据N-最短路径方法对中文邮件进行分词处理,利用空间向量模型在计算机中表示文本,然后进行特征提取。(2)基于朴素贝叶斯分类器原理,设计和实现了一个基于遗传算法和朴素贝叶斯分类器的中文邮件过滤模型,利用遗传算法对传统的朴素贝叶斯模型进行优化。在此基础上,提出一个计算邮件的发件人地址、主题和正文这三个重要组成部分在邮件过滤时所占权重的算法GBFT,以获得较高的邮件过滤准确率和查全率。实验结果表明该算法具有较好的性能。(3)利用贝叶斯分类器对邮件进行分类的一般过程是计算概率,通过将概率与阂值比较判断待检测邮件是垃圾邮件还是有用邮件。本文提出了一个通过利用阈值对检测结果的影响来确定阈值的方法,并通过实验得出了一个比较合理的阈值,提高了结果的准确度。