基于贝叶斯的中文邮件分类关键技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:willzhang86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的加速扩张,人们的日常生活也越来越离不开网络提供的各种服务,电子邮件(E-mail)即是其中应用最为广泛的一种。作为应用最早的互联网服务之一,电子邮件的出现大大改变了人们交换信息的方式,使人们之间的交流变得前所未有的迅捷。但随之而来的垃圾邮件问题也给企业和个人带来了巨大的损失和无尽的烦恼。垃圾邮件在我国虽然起步较晚,但发展迅速,目前我国已经成为世界第三大垃圾邮件来源国。目前,国内针对中文垃圾邮件过滤的研究也在如火如荼的展开,本文即是对基于贝叶斯模型的中文垃圾邮件过滤方法的研究。贝叶斯垃圾邮件过滤技术是目前使用最广泛,取得效果最好的垃圾邮件过滤技术。本文针对中文贝叶斯垃圾邮件过滤系统的特点,研究了中文贝叶斯垃圾邮件过滤系统所涉及的三项主要技术:中文分词技术、文本特征选取技术、贝叶斯文本分类技术,并在此基础上设计完成了一个多层整合的垃圾邮件过滤系统,对该系统的大量测试结果显示本文设计的系统比传统的基于朴素贝叶斯模型的系统,无论是垃圾邮件识别的准确率,还是垃圾邮件的查全率都有不同程度的提高。 本文对贝叶斯垃圾邮件过滤模型三个关键步骤进行了改进。首先在贝叶斯决策过程中使用了两步决策过程,这也是本文所实现的系统在结构上和传统基于朴素贝叶斯模型的系统的最大区别所在,由于引进了二次决策过程,并在二次觉得的过程中使用了不同的邮件特征项,本系统避免了一次决策可能产生的很多错误,大大提高了系统的准确率和查全率。其次,在二次决策过程中使用了两种互补的特征选取方法,即充分利用了初次特征选取的结果,又使系统的特征提取方法更加灵活,更能反映邮件的自身特点。最后,本文在前两项改进的基础上,提出了本文自己的特征项更新模型,既充分利用了前述步骤的改进结果,又使系统的特征项更新模块更符合本系统的自身特点,提高了特征项更新模块的效率。
其他文献
网格作为新一代的网络技术和基础设施,已经引起了广泛的研究和开发热潮。在网格环境中,有大量不同需求的作业和广域分布的计算资源,这些资源没有全局的控制中心且动态变化,动态形
压缩感知自诞生至今,凭借其理论上的显著优越性吸引着众多研究者的关注。这一理论的核心思想是对可压缩的信号进行压缩采样,使用对应的信号重构算法,以远少于原始信号长度的
建筑业自改革开发以来高速增长,是国民经济的重要支柱产业,但建筑质量、安全事件时而发生,造成了巨大的经济财产损失,甚至人员伤亡。当前中国的建筑质量管理信息化工具匮乏,大多数
近几年对领域语言(DSL)的研究越来越深入,比如基于网络监控的网络监控语言、基于银行出帐系统的银行出帐语言等等。这些语言研究都取得了相当的成果,当某门领域语言被完善地定
随着通信技术,微电子技术和计算技术的发展,无线传感器网络逐渐成为无线网络研究的热点。其在国防、工业、农业,城市管理,医疗、环境等诸多领域具有非常广阔的应用前景。无线传感
学位
单点登录技术是一项非常重要的网络安全技术。由于万维网服务技术的广泛使用,如何实现适用万维网服务特点的单点登录成为一个热点问题。 Kerberos协议为分布式网络环境中传
本论文研究的主要内容是以当前电子邮件服务应用现状和不同用户的需求现状为背景,充分考虑个人用户、企业用户和高校“数字化校园”建设中的校园网环境下使用电子邮件等需求,
无线传感器网络(WSN)是由一组传感器节点以特定方式构成的无线网络,其目的是协作地感知、采集和处理网络覆盖的地理区域中感知对象的信息,并反馈给观察者。无线传感器网络与效
如今,网络通信技术的发展日新月异,新的网络技术例如无线传感器网络、自组织网络、卫星网络等都在不同程度地改变着人们的日常通信方式。卫星网以其重要的战略地位逐渐成为当前