【摘 要】
:
随着电子邮件应用越来越普遍,垃圾邮件问题已经有愈演愈烈之势,严重地影响了电子邮件的正常使用。因此,垃圾邮件过滤技术的研究有着十分重要的实用价值。近年来,基于机器学习
论文部分内容阅读
随着电子邮件应用越来越普遍,垃圾邮件问题已经有愈演愈烈之势,严重地影响了电子邮件的正常使用。因此,垃圾邮件过滤技术的研究有着十分重要的实用价值。近年来,基于机器学习方法自动构建个性化的过滤模型已经成为垃圾邮件过滤研究重点之一。运用机器学习方法,也就是预先人工判定邮件的类别,将垃圾邮件过滤当作文本分类的一个分支来处理。因为训练过程中同时使用了正常邮件和垃圾邮件的特征,所以最终生成的过滤器可以自适应不同用户的邮件分布。许多机器学习方法已经应用到了垃圾邮件过滤领域,取得了较为满意的结果,但由于每封邮件中的词很少,对大量邮件进行处理时很容易产生高维的特征空间,而其中大部分词出现的次数很少,从而会产生严重的数据稀疏性;同时,邮件中经常出现同义词或者近义词,而且很多邮件的内容非常类似,因此在邮件的内容之间容易出现严重的多重相关性。针对这些问题,本文提出一种基于偏最小二乘(PLS)的特征抽取方法。新方法的基本思想是:通过分析邮件原始特征与对应类别之间的关系求解二者之间协方差的最大化问题。对高维的原始特征进行多次线性组合的迭代处理,并用偏最小二乘回归函数进行拟合,分别提取出最能反映原高维数据的特征向量组合,从而达到降低特征维数和克服多重相关性的目的。然后应用交叉有效性算法得到最佳的特征维数后用提取出的向量构造新的向量空间。本文采用CEAS 2006的基准数据集——Enron-Spam数据集进行了过滤实验,并与目前常用的χ2特征选择方法进行了对比实验,实验结果表明,新方法在较低维数上可以获得良好的邮件过滤性能,是一个可行而有效的邮件过滤方法。本文的主要创新点如下:1.将偏最小二乘特征抽取方法应用于邮件过滤领域,有效地解决了邮件数据中普遍存在的高维数、数据稀疏性和多重相关性问题;2.采用交叉有效性算法来确定抽取出的特征维数,提高了模型效率。
其他文献
移动Adhoc网络是由一组自主的无线节点或终端相互合作而形成的,独立于固定的基础设施和采用分布式管理的网络,是一种自组织、自管理的无线网络。Adhoc网络在军事通信领域有着广
随着Internet的迅速发展,操作系统规模的不断增大,传统的静态防火墙技术不能满足当今网络安全的需求。入侵检测作为一种主动的防御技术,是传统计算机安全机制的有效补充。从
彩铃业务(Color Ring Back Tone,CRBT)是移动运营商的一项重要增值业务。当前由于彩铃用户普及率趋向饱和,用户活跃性降低,运营商为吸引用户使用和更新彩铃,推出了多种新的彩
随着计算机网络的迅速发展,特别是光网络的兴起,出现了大量G比特甚至T比特的高性能网络,一些远程控制、实时检测可以利用高速网络传输实时的数据和图像,使得高速网络应用日益
随着网络技术的进步,网络应用得到了巨大的发展,已经渗透到人们的日常生活中。TCP/IP网络体系结构与协议的巨大成功来源于其开放性和简单性,但也正是由于这种开放性和简单性使得
随着互联网逐步普及,万维网(World Wide Web,简称Web)应用成为基于互联网向用户提供信息和服务主要方式。用户对于Web应用中图像服务的需求正在不断扩大。可伸缩矢量图(Scala
目前P2P安全的研究主要集中在信任管理方面,虽然已经取得了一些成就,但是也存在诸如无法避免错误推荐,不能有效的应对冒名,诋毁等问题。鉴于此,本文设计了一种P2P环境下基于推荐信
黄土高原是世界上土壤侵蚀最严重的区域之一,水土流失导致该地区土层变薄、养分减少、植被退化、生态脆弱,经济发展缓慢,同时侵蚀产沙淤积下游河道,加剧洪涝灾害。因此,国家
蓝牙设备由于其生产成本低,用户操作方便,其普及率正在稳步上升。各种笔记本、手机也都配置了蓝牙装置,蓝牙技术正在为越来越多人所熟悉。但是,这种新兴的技术随着普及率的提
编码机会路由(Network Coding Opportunistic Routing, NCOR)结合了机会路由(Opportunistic Routing, OR)和网络编码(Network Coding, NC)的优势,利用多径传输与网络编码技术