基于数据挖掘的邮件分类识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hanqingnan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的普及,电子邮件作为一个主要的交流方式得到了更广泛的使用,但随之而来的垃圾邮件也越来越令人头痛。据统计每年美国因垃圾邮件受到的损失高达10亿美元,全球的损失更是高达20亿美元。中国互联网络信息中心2003年7月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到的16封电子邮件中垃圾邮件就占了9封,已经超过了正常邮件数量,并有进一步增长的趋势。在我国,垃圾邮件占用了大量的网络带宽资源,造成邮件服务器拥塞以至于瘫痪;垃圾邮件因其数量多、反复性、强制性、欺骗性、不健康性等特点,严重干扰用户的正常使用,耗费收件人的时间、精力和金钱;有些邮件妖言惑众、骗人钱财、传播色情、散布反动信息等,已经对社会造成极大危害。 但是在与垃圾邮件快速增长的同时,反垃圾邮件的技术几乎停滞不前。由于目前主流的邮件过滤技术缺乏智能性和自学习性,无法通过对已有垃圾邮件的学习来获取识别新垃圾邮件的知识。虽然目前也有部分邮件过滤技术具有学习能力(比如贝叶斯过滤技术),但该技术仅局限与针对邮件的正文内容进行学习,对于结构化文本信息的电子邮件来说,这种技术有其自身的不足。 本文在贝叶斯过滤技术的启发下,选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术。近年来数据挖掘技术被广泛应用到了诸多领域,引起了学术界极大的关注。数据挖掘是一个决策支持过程,基础是人工智能。目前数据挖掘主要利用人工智能中的一些算法和技术,包括决策判定树、人工神经网络技术等来进行预测、模式识别、分类和聚类分析等。 本文通过对电子邮件的分析和研究,提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理,用向量的方式表示电子邮件;接着针对向量化的邮件表示,建立了一种基于信息熵的决策树邮件分类识别模型;论文最后通过编程对该模型作了一系列的实验和测试。实验证明,该模型能从邮件结构字段信息和邮件正文信息中,学习归纳出能识别垃圾邮件的知识和方法,表明本文提出的基于决策树理论的邮件分类模型是可行和有效的,并具有良好的效果。
其他文献
人体免疫系统(HIS)为解决复杂问题提供了一种既独特又具有吸引力的计算模型,因而引起了计算机领域科学家的极大兴趣。利用免疫学的基本理论和模型以及迄今为止所观察到的各种
本文讨论的是适用于手机的Java技术,简表是移动信息设备简表(MIDP,MobileInformationDeviceProfile),它是建立在CLDC基础上的。 本文使用的虚拟机是Intel公司开发的一个高性
随着经济的飞速发展,大型商场的竞争日趋激烈,将信息技术融入商业经营管理,势在必行。本课题就是为了适应这种形势发展而立项,它通过统计不同时间进入商场的客流量,对历史数据进行
本文旨在研究如何通过卫星移动通信、GPS定位技术、GIS地理信息技术实现对远程运行机车的实时跟踪和定位;同时及时获取机车运行信息和机车发生故障时的参数信息,并经过地面监
该论文研究的主题是如何将用TTCN-3描述的测试控制数据转变为能够被测试系统执行的可执行测试控制数据的技术.出于多方面考虑,作者没有采用较为普遍的解释方式,而采用了编译
自20世纪90年代以来,以Internet为代表的计算机网络技术突飞猛进。它被广泛用于经济、文化、军事、教育等社会生活的各个方面。随着这一技术的不断向前发展,计算机网络安全技术
本文在综合研究各种数据可视化方法和多种数据挖掘方法的特点以及多个数据挖掘系统的基础上,设计并搭建了可视化数据挖掘平台的系统框,并且从不同的角度实现了多个进行数据
传感器网络由于其独特的优点在军事和许多民用领域具有广泛的应用潜力,正得到越来越多的关注,对传感器网络各个方面的研究也成为目前学术界的研究热点。路由算法是传感器网络
在互联网上,借鉴网上的推荐或评价是普通用户了解未知事物的一个常用方法。但是,要借鉴其他用户的评价,前提是用户必须相信评价是可信的,因此用户就需要自己能够确定评价的作
信息技术的迅猛发展,对社区建设产生了全方位的影响。它不仅带来了技术手段的革命,同时也深刻地影响着社区的生活方式和管理方式。社区信息化是社会信息化的重要组成部分,如