垃圾邮件的分析与过滤

来源 :辽宁科技大学 | 被引量 : 4次 | 上传用户:fht5403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的广泛应用,电子邮件已成为人们广泛应用的最经济的一种通信手段之一。然而,电子邮件在给人们提供便捷通信的同时,其副产品-垃圾邮件,却给广大用户带来了大量的麻烦。今天,垃圾邮件问题已经愈演愈烈,对互联网造成了很大危害。反垃圾邮件问题已经成为全球性的具有重要现实意义的研究课题。反垃圾邮件过滤系统主要利用垃圾邮件本身规律的规则过滤技术,而内容过滤技术还不成熟,因此对中文垃圾邮件的过滤效果还不够理想。为了更好地过滤垃圾邮件,我们展开了中文反垃圾邮件过滤系统的开发与研究。本文在对电子邮件原理和垃圾邮件的过滤方法进行分析研究的基础上,借鉴了文本分类的思想,提出把挖掘中的K-最近邻方法和RBF神经网络算法引入中文邮件的内容过滤。在对邮件样本过滤之前要先进行以下预处理步骤,首先本文选用正向最大匹配法对邮件样本正文作分词处理,取得邮件的特征项;接着利用互信息和优势率从大量特征项中选择对邮件分类贡献大的少量特征项,以减少向量维数;最后计算每个特征项的权重,并采用向量空间模型的逻辑结构表示邮件文本,构建邮件样本库,针对K-最近邻方法的计算时间复杂度较大的问题,提出了两种改进方案,改进后的方案在保证较高准确率的同时,一定程度上减少了计算量,降低了计算时间复杂度,在对垃圾邮件进行分类与过滤时具有较好的性能。RBF由于其输出对权值的线性关系,更适于系统辨识,是对邮件过滤的一种新尝试。
其他文献
数据挖掘是从大量数据中挖掘出未知的、有价值的模式或规律的复杂过程。聚类分析是数据挖掘中的一个重要研究领域,其目的是按照事物间的相似性对给定事物进行区别和分类,并采
Java语言由于其独特的“一次编译,随处运行”的特点已经成为目前因特网上非常流行的编程语言。平台无关、面向对象、多线程、可靠安全这些特性使得Java在互联网领域得到广泛
船舶试验数据服务平台的研发是由国防科工委为服务于全国船舶行业,旨在共享数据信息和船舶技术以便于技术咨询和设计研究而提出的课题。按照国家“十一五”规划提出的科学发
由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的
随着信息技术的迅猛发展,P2P (Peer-to-Peer)技术也逐渐成为业界研究与关注的焦点。在P2P网络中,每一个节点都同时扮演着客户端和服务器端的角色,这使得网络上的沟通变得更容
概念格是一种有效的知识发现与数据挖掘工具,由形式背景生成概念格的过程,实质上是一种概念聚类过程,反映了概念之间的特化和泛化关系。当形式背景中属性的概念层次发生变化
烟草害虫快速检测与识别是烟草病虫害防治的基础。传统的烟草病虫害识别主要是专家或烟草种植者通过肉眼观察害虫的外部特征并与模式标本对照来识别的,这种识别方法费时费力
当今的时代是网络信息的时代,网络上的网页数量非常的庞大,并且正在以飞快的速度增长。搜索引擎的出现可以帮助我们从网络上较为准确的获取含有相关的信息的网页,但是获得信息是
由于图像语义特征和低层特征的“鸿沟”问题,给基于内容的图像检索技术带来了很大困难,目前提取的内容特征仍集中于颜色、纹理、形状等低层特征。因此如何结合语义特征,使得
三维重构是计算机视觉中一个重要的研究方向,其应用领域十分广泛,它利用相机在不同角度拍摄实物,从获得的多幅图像来恢复所拍摄物体的深度信息,得到兴趣点的三维空间坐标,并