中文垃圾邮件过滤的研究与实现

来源 :温州大学 | 被引量 : 0次 | 上传用户:ren_lian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,电子邮件逐步成为人们日常生活中通信、交流的重要手段。邮件系统的信息推广效益及其自身的开放性使得一些组织和个人通过这一平台发送大量垃圾信息来获取不当利益。  面对日益泛滥的垃圾邮件,首先,人们采用了黑名单和白名单技术;其次,采用简单的规则过滤和关键词匹配过滤;然而这两类技术都存在很高的误判率,垃圾邮件发送者通过简单处理可轻易地避开这类过滤。最后人们将常用的文本分类和信息过滤的算法如朴素贝叶斯、Winnow、Perceptron、决策树、支持向量机、k-近邻等引入邮件过滤中,以实现更为智能的过滤器。朴素贝叶斯算法简便,但召回率和正确率难以提高一个更高的层次,而且在一段时间后邮件内容变化较大时,其过滤效果会逐渐下降。Winnow和Perceptron算法是一种错误驱动的在线学习线性分类算法,通过误判学习逐步提高文本分类效果,然而这种算法初始时的过滤效果很差。其它几种方法的计算较为复杂,实时性也较差。  本文通过对贝叶斯算法和Winnow/Perceptron算法进行改进,将这两类算法结合使用,使得在垃圾邮件过滤时既克服了贝叶斯算法适应性差的缺陷,也克服了Winnow/Perceptron算法初始过滤效果差的不足。相应的测试结果也表明,该过滤方法的各项评价指标普遍比这两类算法在单独使用时效果更好。  具体来说,本文的工作主要包含以下内容:  1、概述邮件系统原理以及垃圾邮件过滤的研究现状。  2、总结各类特征选择方法,介绍文本分类算法在垃圾邮件过滤上的应用。  3、通过对贝叶斯和Winnow/Perceptron这两类算法的特性分析,讨论将这两类算法结合构造新过滤方法的理论可行性。  4、通过对现有中文分词方法介绍,讨论新的过滤方法中中文分词的必要性。  5、实现了一个邮件过滤系统,首先对贝叶斯、Winnow、Perceptron三个算法进行了单独测试,然后对前面提出的结合过滤方法进行了测试。  6、按照文本分类和信息检索领域的评价标准对上述测试的各项结果进行了比较和分析。分析表明,本文提出的新过滤方法具有更好的过滤效果。
其他文献
对于一项工程而言,造价成本的相关工作是极其重要的.装饰装修工程在从设计到施工再到最后整个工程结束的过程之中,存在着诸多注意事项.其中与造假成本结算更是隐含许多细节问
建筑工程项目建设中切实做好招投标管理至关重要,招投标不当带来的威胁不容忽视,在建筑行业发展新形势下,工程招投标以及相应合同管理工作更是面临着较高的要求.本文以工程招
就目前我国市政工程市场的现状来看,其竞争较为激烈,同时,市政工程在投标报价过程中,传统的工程量清单计价模式与目前的发展需求逐渐脱轨,两者之间难以适应,因此需要应用更科
语音信箱业务是一种基于多种网络、以语音信息交互为主要功能的业务,为用户提供存储、转发和提取语音信息等服务。在传统语音信箱的业务特征基础上可对其进行可视化的改进,提
随着Internet网络的发展,电子邮件由于高效、快速、廉价,它已经成为Internet用户之间经常使用的通讯手段.该文首先讨论了当前各种邮件系统的发展,介绍了一些常用的邮件系统,U
招投标作为一种现代化的交易方式在建设工程项目建设中得到了有效的应用,招标人可根据工程项目的建设要求制定合理的招标文件,继而在招投标过程寻找最佳的合作伙伴.为了能够
就当前的建筑工程推进情况来分析,其中最大的特点就是所涉及的领域和作业环节较多,因此建设成本比较高.如果说企业未能很好的做好建筑成本的管制和管理工作,那么工程建设效益
针对彩色打印中色彩不匹配的问题,研究了色域匹配和色彩控制技术.在对已有色域匹配算法对比分析的基础上,指出了现有算法的不足之处,设计并实现了单、双参考自适应色域匹配算
该文首重研究了数字签名技术在电子银行中的应用,并就RSA公开密钥算法实现数字认证进行了设计和实现,此外还对Internet电子商务中与电子银行之间的关系进行了探讨.第一章主要
该文提出一快速遗传退火算法,它融合了遗传算法和模拟退火算法,并保留一定百分比的个体,同时在算法运行过程中,如果需要借助选择操作符挑选较优的基因.基准测试表明,如果保留