基于SVM和D-S理论的垃圾邮件过滤研究

被引量 : 3次 | 上传用户:illyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,研究新型高效的邮件过滤系统仍具有特别重要的现实意义。支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。因此,本文将支持向量机应用于邮件过滤。但是,该技术通常仅仅被应用到基于内容的垃圾邮件过滤中,而很少在邮件标题中讨论到。短小的邮件,包括邮件内容为空的,仅通过分析邮件内容很难被断定为垃圾邮件。如果辨别时考虑邮件标题的特征,结果可能会更加客观和准确。另外,由于垃圾邮件本身的一些伪装方法比较好或者合法邮件的一些关键字和符合垃圾邮件的关键字匹配,每个邮件样本对划分的影响是不同的。一个邮件样本不能明确地归为某一类,而以一定概率或一定隶属度属于某一类,则会提高准确率。因此,仅用邮件分类输出y∈{-1,+1}表示类别信息并不恰当。从上述两个问题出发,本文提出分别根据邮件信头和邮件信体的特征,应用SVM的概率分类邮件,并在邮件的识别框架中加入“不确定邮件”,即在邮件预处理时,分别对邮件头的关键字段和邮件正文进行提取,构成邮件头特征库和邮件体特征库,然后用SVM分类器分别训练,应用SVM的概率分类邮件,分别计算出信头和信体属于垃圾邮件、合法邮件和不确定邮件这三个类别的概率。D-S(Dempster Shafer)证据理论是一套基于“证据”和“组合”来处理不确定性推理问题的数学方法,采用D-S理论能有效地提高目标的识别能力,通过D-S证据合成,目标识别的不确定性下降。于是,本文提出利用D-S理论的合成规则合并信头和信体的概率分配,得到邮件属于三类的概率分配,然后根据D-S理论的决策规则来判断邮件所属类别,降低了邮件识别的不确定性,有效提高了垃圾邮件辨别的准确率。总之,本文提出基于SVM和D-S理论的垃圾邮件识别模型,它根据邮件标题和内容的特征应用SVM概率筛选邮件,最后应用D-S理论识别垃圾邮件,有效提高了垃圾邮件过滤器的准确率。
其他文献
目的 探究针对性护理干预在增生性糖尿病视网膜病变(PDR)患者玻璃体切割联合白内障超声乳化术围手术期中的应用效果。方法 选取接受玻璃体切割联合白内障超声乳化术治疗的83例P
《搜神后记》是在南朝初期定稿的集中记载晋宋时期故事的志怪小说,与《搜神记》有直接的亲缘关系,体现了志怪小说由内容驳杂向类型化转变的一种趋势,在志怪小说的发展过程中
工程车辆在国民经济和国防建设中应用广泛,并发挥着重要的作用。实现自动换挡对于提高工程车辆的动力性和经济性、减轻驾驶员劳动强度等都有重要的意义。本文结合国家自然科
阳离子淀粉是通过醚化、酯化或接枝共聚等反应向淀粉中引入阳离子基团而得到的一类应用广泛的淀粉衍生物。目前开发新型阳离子化试剂、改进合成工艺、提高性能、扩大应用领域
针对目前北京电缆隧道出现的空间不足,电缆损耗过大等问题,研究了隧道内电缆的选型、排列方式、接地方式等问题。根据北京地区负荷预测,对北京500kV变电站出口电缆隧道进行规
从分析民营眼科医院的经营管理特点入手,从建好高层管理的架构、强化医疗质量的管理、善于打造自己的特色优势、制定合理的分配机制等方面提出了民营眼科医院经营管理的措施和
注射液的等渗与等张概念是医药学上的一个重要问题,临床应用中常有不一致的地方,现阐述如下:所谓等渗液,化学上认为溶液的渗透压是以理想半透膜作为条件,理想半透膜的特点是
<正>党的十八届三中全会提出,加强中国特色新型智库建设,建立健全决策咨询制度。习近平总书记十分重视智库建设,多次做出重要指示,为中国特色新型智库建设指明了方向。教育部
细分方法已经广泛应用于任意拓扑的光滑曲面造型、交互计算机图形学(CG)、计算机动画以及计算机辅助设计(CAD)等领域.从上个世纪八十年代以来,得到了广泛而深入的研究.至今研
针对中小批量环境下加工时间不确定的柔性作业车间调度问题,采用冗余处理方法构建了以最大完工时间为目标的鲁棒调度模型。为降低算法的搜索规模和提高算法的求解速度,提出了