基于机器学习理论的垃圾邮件过滤系统的研究与改进

来源 :安徽大学 | 被引量 : 0次 | 上传用户:cumtzhanglei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的研究和快速的发展。论文介绍了垃圾邮件的危害性以及常见的过滤技术,分析了现有的垃圾邮件过滤技术与普通的文本分类问题之间存在的异同。同时还分析了当前这些垃圾邮件过滤技术的优点与不足,并针对这些原因提出了一些解决的办法。论文提出一种基于静态过滤和集成机器学习的邮件过滤系统的设计方案,最后通过实验验证了方案的有效性。论文的主要内容有:  (1)分析和总结了目前基于内容的垃圾邮件过滤技术的现状,从文本表示、特征选择、分类算法、评价体系等方面分析和总结了文本分类中不同方法之间的技术特点、发展趋势和可改进的地方。  (2)特征过多会使训练集噪音过大,规则学习难度增大,时间耗费过多,尤其是规则学习精度降低。但目前有关特征的主要研究集中在特征提取上,而有关特征约简的研究较少。论文提出了一种基于粗糙集理论的特征约简算法。该算法以特征提取时计算得到的特征交叉熵为启发信息,将特征与粗糙集中的属性联系起来,采用粗糙集属性约简算法降低了特征维数,提高邮件处理效率。  (3)设计了一个基于静态过滤和集成机器学习的邮件过滤系统。在静态过滤和粗糙集特征约简的基础上,通过规则库或者朴素贝叶斯和支持向量机两种方法的集成学习来判定邮件类别,并且不断更新系统的规则库,同时根据两种方法各自的判定结果来调整它们在合成公式中的权重。最终无论规则库还是合成公式都更加有针对性和实用性。  (4)在Windows操作系统下用Visual Studio.Net2005开发环境实现了本文提出的基于静态过滤与机器学习的垃圾邮件过滤系统,并且给出了过滤系统功能模块的具体设计。通过KeyLib和CDSCE June2005两份邮件语料库对系统进行详细的效果测试,并从查全率、准确率、精确率和F值多个指标证实了该系统的高效性及实用性。  本文的主要创新有以下几点:  (1)将粗糙集理论与特征提取相结合,提出了一种基于粗糙集属性约简的特征提取算法。该算法以特征交叉熵为启发信息,能够有效的约简大量的冗余特征,提高选取特征的代表性,降低特征维数,减少邮件判定时间,并且提高邮件过滤准确性。  (2)提出了基于朴素贝叶斯和SVM方法的集成学习算法。同一封邮件两种方法分别学习,结果通过合成公式合成。初始系数均为0.5,通过大量语料库的学习不断调整两种方法的结果合成权重,最终达到针对该用户最合适的系数权重。  (3)规则库会随着邮件的变化而相应调整。规则库中每一条规则的每一次使用都会有一个反馈作为对该规则的评价。而且为了保证查询的效率用户可接受,对规则库的规则数量作一个限制,譬如2000.规则库的动态更新一方面依据规则的使用评价为依据,另外一方面也受到规则库的规则数量限制。也就是达到数量限制以后,表现最差的规则或者很长时间没有使用的规则就会被新生的规则代替。
其他文献
近几年来荆襄化学工业公司建设和发展的实践表明,化学矿山企业技术力量雄厚,资产存量较大。通过加强管理,密切与外部环境的联系,综合利用,盘活资产存量等手段,依靠科技进步,走以矿为
由于空间数据的数据量庞大、多维、缺乏全序关系,使得空间数据查询的效率成为了空间数据库性能的瓶颈,空间查询优化势必成为空间数据库应用的难点和突破点。查询代价模型是空间
在Windows系统中,诸如NAT,防火墙等这类网络应用几乎都是基于NDIS(Network Driver Interface Specification)来实现的。实现包过滤的方法主要是书写NDIS过滤驱动程序,它需要
传统意义上的掌纹识别一般是基于图像进行的,这种方式能得到较好的结果,但也遇到了一些瓶颈。为了提高识别率,本文提出了一种新型的掌纹识别方法:三维掌纹身份鉴别。其主要技术
改革开放以来,随着社会的不断进步.目前,我国的经济水平,科技技术水平的进步脚步也在逐步加快.从近几年的发展情况来看,土木工程建筑,已然发展成为一个比较壮大,全面的工程行
介绍了西山煤电集团在推行矿井选煤厂实行矿、厂分离承包经济责任制后取得的先进经验;认为只有依靠科技进步、深化企业经营机制改革,才能适应市场经济的要求,提高企业经济效益。
西山煤电(集团)有限责任公司西曲选煤厂顺利通过原煤炭部“全国优质高效选煤厂”认证,闯入全国十强选煤厂行列。西曲选煤厂是国家“七五”重点建设项目之一,于1987年10月20日建成
从2018年2月起,H7N9亚型禽流感病毒在经历了1年多无新增病例报告,于2019年3月底再次感染人。高致病性H7N9亚型禽流感病毒病例的再次出现警醒我们,想要彻底消除H7N9亚型禽流感病毒十分困难,还需要做出更大的努力。本文综述高致病性H7N9亚型禽流感病毒的病原学特征,包括其起源、演化、受体结合特性、以及致病力和传播力特征等,从而为高致病性H7N9亚型禽流感疫情的防控提供参考依据。
Q:我想就如下2个问题咨询专家:(1)今年下半年基民该如何操作? (2)建信优化配置基金表现不错,能否介绍一下它的特点? Q: I would like to consult the experts on the follow
从信息运维值班员、系统管理员和现有在用软件的三个角度描述了目前信息系统运维工作中面临的问题。提出了通过设计开发基于PI数据库的服务器智能化运行监控平台来丰富现有的