基于内容的垃圾邮件过滤技术研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:fkjunjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,电子邮件系统逐步取代了传统的邮件通信系统,成为人们日常生活中不可或缺的一个部分。但是,一些人受到金钱利益驱使,通过电子邮件大量散布恶意信息。在这些信息中,除了有常见的商业广告,还存在一些反动、诈骗等信息。这些信息的传播,不仅影响人们的日常生活,而且威胁社会的安全稳定。本文通过对目前常见的垃圾邮件过滤技术进行分析与总结,选择基于内容的垃圾邮件过滤方法作为本文研究的重点。在此基础上,针对传统垃圾邮件过滤技术在垃圾邮件检测过程中所存在一些薄弱环节,提出一些改进方法。本文的研究工作主要分为四个部分。(1)对基于内容的垃圾邮件过滤技术进行综述本文从特征表示、降维方法、分类方法和评估标准四个方面对基于内容的垃圾邮件过滤技术进行综述。对各方面所采用的方法和工具进行了回顾和梳理。(2)提出基于间隔式滑动窗口的中文分词法文本分词是垃圾邮件过滤流程中的一个重要环节。为了躲避垃圾邮件过滤技术的检测,垃圾邮件制造者通过在原始邮件文本中添加异常字符,隐藏文本中的敏感词,降低分词效率。针对这种情况,本文提出一种间隔式滑动窗口分词法。将间隔式滑动窗口与词典分词方法结合起来,通过间隔式滑动窗口过滤文本中存在的异常字符,再将从文本中划分出来的字符串与分词词典相匹配,提取其中有效的词条,同时也增大文本信息的采集量。(3)提出基于特征贡献比的互信息特征选择方法随着数据量的不断增大,特征降维成为文本分类研究中不可缺少的一环。目前常见的特征选择方法往往针对的是多分类问题,未能针对二分类问题进行特殊化的处理。因此,本文对传统的互信息特征选择方法进行了改进。除了针对其缺少词频信息,引入词频因子外,还针对二分类问题,引入了特征贡献比的概念。实验证明,采用基于特征贡献比的互信息特征选择方法得到的特征子集,大大提高了垃圾邮件的检测效果。(4)提出L1范数正则化ROC-SVM算法近几年,不均衡问题的研究成了热点。由于从实际生活中采集到的数据中不同类别的样本数量往往不等,给分类带来了很多的困扰。特别是对少数类样本的检测,识别效果很差。针对这种情况,本文在ROC-SVM算法基础上,引入了 L范数正则化。在最小化对不平衡免疫的AUC值的基础上,通过L1范数正则化,减轻文本空间模型的稀疏性给分类器带来的不利影响。同时,也大大减少了测试所需要的时间。
其他文献
一致性问题是移动白组网的基础性问题,利用不可靠故障检测器解决一致性问题有很多的方案,按照适用范围可以分为具体协议和通用协议。这两种协议具有不同的特性,各有优缺点。
学位
数据挖掘就是从海量数据中提取具有潜在价值的信息,是目前信息管理领域和数据库技术最前沿的研究方向之一。聚类分析作为数据挖掘技术中的重要组成部分,已经广泛应用于模式识别
DDoS攻击作为目前主流的网络恶意行为之一,对互联网的正常运行造成了严重的危害。本文的研究工作围绕DDoS攻击的检测和响应展开。检测工作基于网络边界路由器提供的流记录信
随着电子信息技术的飞速发展,汽车电子已成为现代汽车工业新的增长点,扮演着越来越重要的角色。同时,汽车电子系统的复杂性进一步加大了汽车电子软件的开发难度,普遍需要一个标准
经典粗糙集理论研究的对象是完备信息系统,完备信息系统中所有的属性值都已给定的且是单一的。然而,现实世界中的大量信息是不完备的,这些信息的属性值往往是未知的或是非单值的
一台机器履行职能的能力通常与人工智能有关,比如推理、规划、感知、认知、学习、理解和解决问题能力,在计算机学术界机器能力的研究是最有趣的研究领域之一。同时也是人工智能
信息化时代的今天,网络文本呈现出海量的特性,从搜索到的海量文本中提取有效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的高,不同簇中的文
近年来,随着复杂网络研究的兴起,在复杂网络的结构性和动态性研究方面取得了许多令人振奋的成果。相关研究表明,复杂网络对随机攻击具有很强的抵抗能力,但对蓄意攻击却极其脆
针对现有网络体系的不足,四川省网络通信技术重点实验室提出了面向连接的并且能保证用户服务质量的单物理层用户数据传输与交换平台体系结构(SUPA)。该结构根据带外信令的传