基于数据挖掘的中文垃圾邮件过滤技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:jiangda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,电子邮件是人们广泛应用的最经济的一种通信手段之一。但随之而来的副产品—垃圾邮件却越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的研究课题,其中中文垃圾邮件作为垃圾邮件的重要组成部分必须给以足够的重视。邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP层的反垃圾邮件技术、基于SMTP层的反垃圾邮件技术和基于邮件内容的过滤。本文的研究就属于基于邮件内容的过滤方法。 本文分析了当前流行的反垃圾邮件一般对策和技术的基本原理及其优缺点,在此基础上,借鉴了文本分类的思想,提出把数据挖掘中的K-最近邻方法和RBF神经网路算法引入中文邮件的内容过滤。 在对邮件样本过滤之前要先进行以下预处理步骤,首先本文选用正向最大匹配法对邮件样本正文文本作分词处理,取得邮件的特征项;接着利用互信息和优势率从大量特征项中选择对邮件分类贡献大的少量特征项,以减少向量维数;最后计算每个特征项的权重,并采用向量空间模型的逻辑结构表示邮件文本,构建邮件样本库,以下的实验都是在这样经过了预处理后的邮件样本库上进行的。针对K-最近邻方法的计算时间复杂度较大的问题,提出了两种改进方案,实验结果显示,改进后的方案在保证较高准确率的同时,一定程度上减少了计算量,降低了计算时间复杂度,在对垃圾邮件进行分类与过滤时具有较好的性能。RBF神经网络由于其输出对权值的线性关系,更适于系统辨识,实验证明该方法对于中文邮件过滤系统切实可行、效果良好,是对邮件过滤的一种新尝试。本文探索了过滤邮件的新方法,实验结果表明他们具有良好的应用价值,可以作为邮件过滤的一种新思路。
其他文献
“新生代”大学生主要是指90后出生的这批大学生。面对当今大学校园里的越来越多的这批大学生,高职高专院校的班主任则面临着更多的困难和挑战。对在校大学生进行思想教育和学
在新课程改革标准的指导下,应试教育不再是教学的主导,初中生物教学受主科影响逐渐减少,生物学的重要性越来越明显,并因此相应有了很大的发展,但仍存在一些需要解决和调整的问题。
新形势下的不断发展,使大学生的管理工作越来越重要,尤其是在教育理念,教学内容方面,作为高校学生工作者,怎样去转变思想观念来顺应时代的发展,做好学生思想政治工作,是时代和社会赋
精心创造有效的课堂教学情境,渲染出历史教学具体、形象、生动的环境和氛围,为学生营造一个兴趣盎然的良好环境,课堂循序渐进,有目的地引入或创设具有一定情绪色彩的、以形象为主
二十一世纪,无论是数字图书馆还是复合式图书馆,都将对传统图书馆产生巨大的冲击。如何建立与之相匹配的服务模式,尤其是地方图书馆。已成为亟待解决的问题。实现服务模式创新是
本文针对P2P环境中的安全即时通信应用需求,设计并实现了一个基于JXTA?的?P2P?安全即时通信应用系统。本系统是企业专用系统,为员工在网络上提供安全的即时通信服务,如日常沟
本课题在对可信计算的体系结构、Linux的安全机制、现有的认证协议等深入研究的基础上,提出了基于Linux操作系统的用户认证与应用授权的架构,并最终完成了整个系统的搭建。本
新形势下如何实施有效地本地区生物教师培训工作,是培训者和管理者直接面对的课题。实践证明,培训内容的适用、施训形式的变化、机制管理的科学与否,都应是以参训生物教师的评价
随着课程改革的不断深入,学校体育教学课程内容的需求量大大增加,需要相应的内容来充实学校体育的教学体系,而学校体育中好大一部分是西方体育的泊来品,与国人的身体素质、心理感
在就业市场竞争的日益激烈的情况下,高职教育的目的不仅是为学生提供信息知识,更重要的是教会学习技巧,帮助学生就业。本文主要对高职学生干部的职业发展状况进行调查分析,提出培