论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段,但垃圾邮件占用大量的传输、存储和运算资源,造成巨大的资源浪费,对信息安全系统的有效性形成重大挑战,垃圾邮件严重危害互联网发展。因此有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑白名单技术、规则过滤等,但这些方法都具有一定的局限性。规则的建立需要相关领域知识,规则的增加需要大量的时间,这些都需要靠反垃圾邮件的专业人士来制定。同时制定好的规则是公开的,使得垃圾邮件制造者容易掌握这些规则绕过过滤器来发送垃圾邮件。目前,垃圾邮件过滤成为研究的热点。许多机器学习方法已经应用到了垃圾邮件过滤领域,但由于每封邮件中的词很少,对大量邮件进行处理时很容易产生高维的特征空间,而其中大部分词出现的次数很少,从而会产生严重的数据稀疏性;同时,邮件中经常出现同义词或者近义词,而且很多邮件的内容非常类似,因此在邮件的内容之间容易出现严重的多重相关性。偏最小二乘方法可以很好的解决这些问题,但是邮件的内容之间的多重相关性往往不是线性的,而更多的是错综复杂的非线性关系,本文通过在偏最小二乘方法引入核函数,去处理这一类的非线性问题。本文用到基于核偏最小二乘分类(Kernel PLS Classification)方法的基本思想是:通过定义特征变换后样本在特征空间中的内积来实现一种特征变换,把数据映射到可再生希尔伯特空间中,使得这个非线性问题可以在被映射的空间上线性描述。在选取适当的核函数后,在原始空间带参数的核函数相对于在可再生希尔伯特空间中带参数的内积,使其线性分类更加容易。它是一种整体非线性化方式进行机器学习。为了检验我们提出的方法在垃圾邮件过滤中的性能,本文采用希腊学者Androutsopoulos提供的Enron-Spam数据集进行了邮件过滤实验,同时在实验中为了凸显出邮件的主题与正文内容对过滤的影响,简单地对每篇邮件的主题出现的词和正文内容出现的词设置了不同权重。并与目前常用的几种方法进行了对比实验,实验结果表明KPLSC模型获得一个比较好的邮件过滤性能,是一个可行而有效,稳定的邮件过滤方法。在KPLSC模型的关键问题是:潜在变量对数量的确定与一个核函数的选择。本文的工作与创新点如下:通过在偏最小二乘方法上引入核函数,应用核偏最小二乘分类的垃圾邮件过滤方法,去解决邮件内容存在的非线性关系。