基于惰性学习的垃圾邮件过滤技术研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:darling1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,电子邮件已经成为人们生活中通信、交流的工具之一,但是随着电子邮件的广泛普及和电子邮件发送的低成本,人们面临的一个严峻的问题就是:任何人的电子邮件地址只要落入垃圾邮件制作者之手,便有可能收到未经请求的包含广告、不良信息等内容的电子邮件,使得人们无法阅读到正常的邮件。现在已经有了很多反垃圾邮件的方法,常用的有黑白名单、基于关键词匹配和基于规则的过滤等。   本文首先研究垃圾邮件的基本概念,根据不同的标准对垃圾邮件过滤技术进行了分类,分析比较了目前采用的垃圾邮件过滤技术,引入了一种惰性学习法K-最近邻。K-最近邻分类算法是最简单的机器学习算法之一。如果一个待分类样本在特征空间中的k个最邻近的样本中大多数都属于某一个类别的时候,那么该样本也属于这个类别。本文针对传统K-最近邻分类算法的缺点使用聚类算法和权值的方法来进行改进,减小了算法的计算量,提高了分类的精度。   本文重点从电子邮件的正文内容着手,使用文本分类的算法。文本分类的一个典型应用就是垃圾邮件过滤。垃圾邮件过滤中比较常用的文本分类算法有朴素贝叶斯、决策树等。将改进的K-最近邻算法应用于垃圾邮件过滤,在公用的邮件语料集上的实验表明,改进的K-最近邻算法效果比朴素贝叶斯方法要好。   最后,本文对整个设计与验证过程进行总结与展望,对如何进一步提高垃圾邮件的过滤问题也提出了思路,对如何进一步适应多种多样变形的垃圾邮件过滤研究工作进行了展望。
其他文献
具有智能特性的进化计算,已被成功应用于数据挖掘领域。基因表达式编程(GEP)是在遗传算法和遗传编程基础上提出的一种新型的进化计算,已在函数发现、优化问题等方面取得了良好
三维数字获取技术的快速发展使得人类获得越来越多的三维几何模型数据,这些几何模型数据中典型的有静态的点模型数据和动态的运动捕获数据。为了对庞大三维几何模型数据集进行
基于偏微分方程的曲面构造方法是计算机图形学中众多曲面造型方法中的一种重要的方法,在构造过渡面、自由曲面和功能曲面设计方面都有很重要的应用价值。该方法的特点是将所
为了提高大区域高压输电线路在线监测系统在恶劣环境下的可靠性,需要利用系统中的无线传感器网络对WiFi通信链路进行补充,以便可以在WiFi设备失效的情况下代替其进行数据传输
随着3G技术、移动互联网的兴起,无线视频通信的市场需求越来越广泛。目前,无线视频通信应用已经成为无线通信业务发展的核心组成部分。但是由于无线网络传输带宽的限制、信道
随着网络信息技术的快速发展,可收集信息的种类和数量都呈指数增长,而基于信息共享、科学研究等方面的需要,数据收集者需将收集到的数据信息进行发布。由于发布的信息中涉及到很
随着服务组合系统的广泛应用,许多新的研究问题被提出。由于Web服务松散、低耦合等特点,使得Web服务之间的异步交互方式被广泛的采用。而以往的研究往往局限于同步交互情形,很少
计算机动画技术的飞速发展使得人体动画在虚拟现实、影视娱乐、视频游戏、教育培训、体育和军事仿真等领域得到了广泛应用。运动捕获技术的出现及大规模商业化应用,为人体动
二维网状(mesh)的处理器阵列具有规整的结构,能够对图形图像数据进行高效处理。近年来,超大规模集成电路(VLSI)和晶片规模集成电路(WSI)的集成技术和工艺发展的越来越成熟,VLSI
随着科学技术的飞速发展,越来越多的传感器应用于各个领域中。图像融合就是利用各种成像传感器不同的成像方式,提供互补信息,增加图像的信息量,提高对环境的适应性,以获得更