基于核偏最小二乘分类的垃圾邮件过滤研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:michael047
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段,但垃圾邮件占用大量的传输、存储和运算资源,造成巨大的资源浪费,对信息安全系统的有效性形成重大挑战,垃圾邮件严重危害互联网发展。因此有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑白名单技术、规则过滤等,但这些方法都具有一定的局限性。规则的建立需要相关领域知识,规则的增加需要大量的时间,这些都需要靠反垃圾邮件的专业人士来制定。同时制定好的规则是公开的,使得垃圾邮件制造者容易掌握这些规则绕过过滤器来发送垃圾邮件。目前,垃圾邮件过滤成为研究的热点。许多机器学习方法已经应用到了垃圾邮件过滤领域,但由于每封邮件中的词很少,对大量邮件进行处理时很容易产生高维的特征空间,而其中大部分词出现的次数很少,从而会产生严重的数据稀疏性;同时,邮件中经常出现同义词或者近义词,而且很多邮件的内容非常类似,因此在邮件的内容之间容易出现严重的多重相关性。偏最小二乘方法可以很好的解决这些问题,但是邮件的内容之间的多重相关性往往不是线性的,而更多的是错综复杂的非线性关系,本文通过在偏最小二乘方法引入核函数,去处理这一类的非线性问题。本文用到基于核偏最小二乘分类(Kernel PLS Classification)方法的基本思想是:通过定义特征变换后样本在特征空间中的内积来实现一种特征变换,把数据映射到可再生希尔伯特空间中,使得这个非线性问题可以在被映射的空间上线性描述。在选取适当的核函数后,在原始空间带参数的核函数相对于在可再生希尔伯特空间中带参数的内积,使其线性分类更加容易。它是一种整体非线性化方式进行机器学习。为了检验我们提出的方法在垃圾邮件过滤中的性能,本文采用希腊学者Androutsopoulos提供的Enron-Spam数据集进行了邮件过滤实验,同时在实验中为了凸显出邮件的主题与正文内容对过滤的影响,简单地对每篇邮件的主题出现的词和正文内容出现的词设置了不同权重。并与目前常用的几种方法进行了对比实验,实验结果表明KPLSC模型获得一个比较好的邮件过滤性能,是一个可行而有效,稳定的邮件过滤方法。在KPLSC模型的关键问题是:潜在变量对数量的确定与一个核函数的选择。本文的工作与创新点如下:通过在偏最小二乘方法上引入核函数,应用核偏最小二乘分类的垃圾邮件过滤方法,去解决邮件内容存在的非线性关系。
其他文献
Internet已经成为人们获取信息资源和进行信息交流的一个重要途径,随着Web信息的日益增长,要想在信息量浩如烟海的互联网上搜索浏览自己需要的信息,成为了一项极具挑战的工作
人脸跟踪是计算机视觉和模式识别领域的一个重要研究课题。在基于内容的视频检索、数字视频处理、智能人机接口、视觉监测等方面有着重要的应用价值。但在实际应用中,人脸跟
在云计算应用日益广泛的今天,提高云服务的质量与数据中心的资源利用率,减少云服务商的运营成本与客户的开销具有及其重要的应用价值。论文在国家863计划支持下,针对虚拟机管
近年来,随着可持续发展战略的提出和确立,土地作为一种不可再生资源,它的保护和利用日益为人们所关注,合理规划土地对我国现代化建设有着举足轻重的意义。宗地管理系统对保护
Internet技术的迅速发展,使得网络逐渐成为人们获取知识的主要途径之一。近年来,E-learning的研究和应用飞速发展,为用户提供了前所未有的丰富的学习资源和灵活的学习方式。
传统Skyline查询没有考虑用户的个人偏好,对所有用户返回相同的结果集。关键词Skyline查询,结合对象的标签、评论等文本信息,基于用户输入的关键词,返回符合用户偏好的Skylin
当今社会,网站是人们获得信息的主要来源之一,可是在网站提供的信息里面难免掺杂着一些人们不关心的信息,如图片,广告,无关链接等。一些商业性网站已经发现了这些弊端,采用了
软件测试是保证软件质量的重要手段,测试成本占整个软件开发成本的40%到50%,测试场景/用例的质量和生成方法决定着测试的可靠性和成本。随着UML标准和RUP软件开发过程的广泛
无线传感器网络是由具有感知、计算和无线通信能力的传感器节点构成的,展示了一种全新的信息获取和处理的技术。这种网络在军事国防、环境监测、抢险救灾和危险区域的远程控制
随着网络技术和移动通信技术的发展,基于移动计算设备的应用已经越来越普及。人们广泛使用PDA、智能电话等移动手持设备随时随地进行商务活动。为了适应移动应用的这一发展,移