论文部分内容阅读
伴随着Internet的普及,电子邮件作为一个主要的交流方式得到了更广泛的使用,但随之而来的垃圾邮件也越来越令人头痛。据统计每年美国因垃圾邮件受到的损失高达10亿美元,全球的损失更是高达20亿美元。中国互联网络信息中心2003年7月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到的16封电子邮件中垃圾邮件就占了9封,已经超过了正常邮件数量,并有进一步增长的趋势。在我国,垃圾邮件占用了大量的网络带宽资源,造成邮件服务器拥塞以至于瘫痪;垃圾邮件因其数量多、反复性、强制性、欺骗性、不健康性等特点,严重干扰用户的正常使用,耗费收件人的时间、精力和金钱;有些邮件妖言惑众、骗人钱财、传播色情、散布反动信息等,已经对社会造成极大危害。 但是在与垃圾邮件快速增长的同时,反垃圾邮件的技术几乎停滞不前。由于目前主流的邮件过滤技术缺乏智能性和自学习性,无法通过对已有垃圾邮件的学习来获取识别新垃圾邮件的知识。虽然目前也有部分邮件过滤技术具有学习能力(比如贝叶斯过滤技术),但该技术仅局限与针对邮件的正文内容进行学习,对于结构化文本信息的电子邮件来说,这种技术有其自身的不足。 本文在贝叶斯过滤技术的启发下,选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术。近年来数据挖掘技术被广泛应用到了诸多领域,引起了学术界极大的关注。数据挖掘是一个决策支持过程,基础是人工智能。目前数据挖掘主要利用人工智能中的一些算法和技术,包括决策判定树、人工神经网络技术等来进行预测、模式识别、分类和聚类分析等。 本文通过对电子邮件的分析和研究,提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理,用向量的方式表示电子邮件;接着针对向量化的邮件表示,建立了一种基于信息熵的决策树邮件分类识别模型;论文最后通过编程对该模型作了一系列的实验和测试。实验证明,该模型能从邮件结构字段信息和邮件正文信息中,学习归纳出能识别垃圾邮件的知识和方法,表明本文提出的基于决策树理论的邮件分类模型是可行和有效的,并具有良好的效果。