基于覆盖算法的中文垃圾邮件过滤

来源 :安徽大学 | 被引量 : 0次 | 上传用户：ospriteo

【摘要】

：

Intemet的发展给人们带来了全新的网络体验，其中的电子邮件技术也成为一种快捷、经济的现代通信手段。然而电子邮件在为人们提供便利的通信手段的同时，也日益成为广告、病毒、

【作者】

：

王倩倩

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2007年期

【关键词】

：

垃圾邮件文本降维模式识别文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Intemet的发展给人们带来了全新的网络体验，其中的电子邮件技术也成为一种快捷、经济的现代通信手段。然而电子邮件在为人们提供便利的通信手段的同时，也日益成为广告、病毒、恶意程序、不良信息等内容传播的重要载体，给人们的生活带来了诸多不便，同时给网络的安全带来极坏的影响。因此，解决好垃圾邮件问题具有重要的现实意义。在多种反垃圾邮件的技术中，垃圾邮件过滤技术以其方便、可引入技术种类丰富成为反垃圾邮件研究领域的一个热点方向。现有的垃圾邮件过滤技术主要有基于IP地址的垃圾邮件过滤、基于邮件关键字的过滤以及基于邮件内容的过滤，但这些过滤方法均只单纯考虑了邮件的部分信息而忽视了其它的有用部分。本文在对以上的过滤方法进行分析之后，综合考虑各种过滤方式的优点，提出将邮件地址、关键字、邮件内容等因素同时考虑进行垃圾邮件过滤。本文所做的主要工作和创新点如下：1、对电子邮件的格式进行了较为细致的分析，并在此基础上具体讨论了VC环境下如何实现对邮件的接收和访问；2、本文对以往基于内容的垃圾邮件过滤方法进行了改进，将内容之外的其它各类邮件要素，如来源地址、主题、是否具有附件以及附件类型等，均作为邮件的特征属性供分类器学习。试验结果表明，这些属性对于邮件类别的确定具有重要的影响；3、对邮件内容进行处理时，为了减少特征向量的维数，本文使用文本分类中常见的几种特征降维方法(文本频度、x~2统计量方法、互信息方法、信息增益方法、期望交叉熵方法、文本证据权方法)分别对垃圾邮件样本进行了测试。实验结果表明，x~2统计量方法和期望交叉熵方法对邮件分类最为有效，文本频度方法和文本证据权方法稍差，而互信息方法和信息增益的方法效果最差；4、获得有效邮件特征向量后，必须使用合适的分类器进行分类。本文首次将张铃、张钹教授提出的前向人工神经网络基础上的覆盖算法应用到垃圾邮件过滤中。本文对使用覆盖算法和支持向量机方法作为分类器进行了对比，实验表明覆盖算法作为一种优秀的分类器，可以有效的进行垃圾邮件过滤，具有较高的正确率；5、在垃圾邮件的过滤中存在一定的风险性，一般说来，收件人宁愿多接收到一些垃圾邮件也不希望正常邮件被错判为垃圾邮件。本文从风险角度分析了覆盖算法对测试样本进行分类时的过程，根据分析结果提出对其“拒识”样本的处理过程进行改进，通过改变非垃圾邮件所属覆盖的影响范围，降低了垃圾邮件过滤时的风险；6、由于各种模式识别的方法均存在自身的优缺点，本文根据少数服从多数的朴素思想，对基于多种模式识别方法的投票式垃圾邮件过滤的可行性进行了探讨。本文在垃圾邮件过滤方面完成了一定的工作，但还存在一些不足，今后可以在以下方面继续研究：1、本文的研究对象是针对中文垃圾邮件，今后可以对非中文垃圾邮件进行研究，将非中文垃圾邮件也纳入研究范围中；2、本文研究的邮件是传统意义上的文字形式邮件，但随着电子邮件技术的发展，现在已经存在并将会有更多的邮件形式，如何从多种邮件形式中获得所需的过滤邮件信息，是下一步需要研究的内容；3、多模式识别方法下的垃圾邮件过滤可以进一步深入研究。

其他文献

基于描述逻辑的CBR事例修正算法研究

基于事例推理(CBR)是人工智能领域的一个分支,它克服了知识获取的瓶颈问题,模拟人类遇事的惯性思维,用过去的经验解决当前遇到的问题,能有效提高问题处理的效率。CBR中,事例

学位

事例推理描述逻辑人工智能事例修正算法

VPN安全策略管理系统中负载均衡的研究与实现

学位

电信充值业务系统的研究

随着国内电信业的市场环境日趋合理，竞争日益加剧，中国电信业所面对的国际化市场环境要求国内的公众电信运营企业在经营管理、基础设施建设等方面必须向国外先进的电信运营企业

学位

电信充值业务系统电信业企业经营管理安全设计业务流程

基于QoS的多播路由算法研究

随着网络技术和应用的快速发展,以流媒体、视频点播、可视电话、视频会议等为代表的多媒体业务迅速增长;与此同时,这些多媒体业务也对网络的服务质量(QOS)提出了更高的要求,

学位

服务质量D-GMM模型BS算法动态多播路由

织物外观真实感模拟的研究

织物CAD作为高新技术的手段为纺织品的设计和生产提供了很大的方便。织物的外观模拟在设计阶段就能预测外观效果，起到代替试织小样的作用，大大提高了新产品、新品种开发的效率

学位

外观模拟材质花式纱线复杂组织织物

富文本社会网络中话题敏感的影响力最大化问题研究

影响力最大化问题是网络病毒式营销策略中非常关键的部分，它可以帮助寻找初始用户集以使得网络中受影响的用户最多。而已有的研究极少考虑网络节点的文本信息，不能区分对不同信

学位

富文本社会网络影响力最大化问题话题敏感独立级联模型线性阈值模型

基于网格的仿真高层体系结构关键技术研究

高层体系结构(High Level Architecture,HLA)是当前分布式仿真的事实标准。运行时基础结构RTI(Run-Time Infrastructure)是高层体系结构的关键,它是实现HLA接口规范的软件。

学位

仿真网格高层体系结构运行时基础结构资源整合调度仿真模型

广域网存储服务数据管理中副本策略研究

网络技术的迅速发展带来了网络传输信息量的急剧增长,传统的存储系统已经不能满足需要,尤其是下一代互联网时代的到来对存储系统的容量、安全性、可靠性和可用性等方面都提出

学位

网络存储数据管理副本策略动态副本管理

基于环境影响的树木虚拟仿真的研究

随着虚拟现实技术和计算机图形学的发展，利用计算机对自然界中植物的模拟，已经成为一个热门课题。当前的树木虚拟仿真主要把精力集中在追求真实感上，而在虚拟仿真中，有关树木本身

学位

虚拟植物L系统植物学环境影响单轴分支

面向虚拟教学实验室的虚拟机设计与实现

随着信息技术的发展,作为传统实验教学的一种有效补充,虚拟实验教学已成为加强实践教学、提高教学质量的重要手段。国外对虚拟教学实验室的研究始于上世纪80年代末。近年来,

学位

虚拟教学实验室虚拟机指令流水线

基于覆盖算法的中文垃圾邮件过滤

与本文相关的学术论文