基于内容的垃圾邮件过滤技术研究

来源 :兰州理工大学 | 被引量 : 7次 | 上传用户:Lavenderws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要的方法。本文从国内垃圾邮件泛滥的现状出发,以中文垃圾邮件过滤的相关技术为研究方向,重点对潜在语义分析方法、“邮件指纹”生成策略、基于模糊支持向量机的邮件过滤方法、模糊聚类算法在邮件过滤中的应用方式以及基于博弈论的邮件特征选择对过滤性能所产生的影响进行了深入研究:1为了解决潜在语义分析方法(LSA)在权重计算上因继承向量空间模型,而忽视自身特点,导致缺乏文档先验信息和文档全局信息植入,使得在实际应用中过分机械的问题,提出一种新的权重函数来改进原有权重的定义方式,使得基于主动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤模型。并针对现阶段在拥有数万用户的大型局域网中,多数垃圾邮件采用动态改变主体或发件人地址,而其正文及附件内容却基本一致的群发方式在网内传播的现象,提出利用Message-Digest Algorithm 5(MD5)算法,在LSA分析的基础上,对群发型垃圾邮件生成“邮件指纹”,来解决传统过滤技术在处理群发型垃圾邮件中低效的问题,进一步提高了垃圾邮件识别的准确率。2在模糊支持向量机(FSVM)分类方法的研究基础上,通过分析模糊支持向量机在中文垃圾邮件识别时误判样本的特性,提出一种将LSA方法与FSVM方法相结合的垃圾邮件过滤模型,并对FSVM方法中,隶属函数的确定还主要采用基于样本到类中心之间的距离来度量其隶属度大小,而忽略样本与类相融性的问题,依据中文邮件识别的特殊要求,在原有基于距离的隶属函数定义基础上,引入样本与类的融合程度来拓展隶属函数的定义形式,使FSVM方法更加符合中文垃圾邮件过滤这一特定应用需求。通过翔实的实验,验证了这种方法在垃圾邮件识别中的有效性。3为解决在无太多可借鉴的先验知识情况下,对垃圾邮件进行高效、准确过滤的问题,文中采用在文本分类领域广泛应用的模糊聚类分析方法,对垃圾邮件进行无监督的识别。并通过对模糊聚类分析方法在处理大规模数据中所存在问题的分析,提出采用因子分析的方法,将邮件样本集合中的内容特性指标进行简化,在保留原始邮件内容的语义信息同时,简化信息的复杂性,增强后续模糊聚类分析的可操作性;通过在选定的邮件测试集上进行实验,利用DCAFEM对经过特性指标预处理后的邮件样本进行聚类,以计算各类中心点,并采用中心点对比的方法进行邮件的识别。也证实了该方法能够大大提高邮件过滤的精度和对未知垃圾邮件的识别能力。4通过对基于内容的垃圾邮件过滤方法在特征选择方面所存在不足的分析,研究了如何在邮件特征空间中选择出对邮件分类最佳的特征采样点,从而减小邮件过滤方法在问题处理中的空间复杂度,以提高垃圾邮件识别的正确率。通过利用邮件样本自身在二分问题中的隶属度与特征点在邮件样本集中的权重,来定义特征采样点对邮件类别的区分程度,从而达到消除噪声特征点、提高邮件过滤性能的目的。采用博弈论建立邮件特征选择模型,选择出样本集中最佳特征子集,从而减少特征采样点的数量,使得被选出的特征点能够在较全面反映邮件内容信息的同时,也能提高垃圾邮件过滤方法的识别效率。通过在CCERT Data Sets of Chinese Emails(CDSCE)语料库上的实验表明,采用文中方法能够使邮件过滤性能得到显著提高。
其他文献
针对草食动物生产学课程教学过程中存在的问题,华南农业大学教学团队通过提升教师素质、优化教学内容和方法、建立实践教学体系、完善教学考核制度等措施开展了一系列教学改
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
[本刊讯]为进一步推进"三好一满意"活动,江苏省海门市中医院认真听取患者的意见建议,采取各种便民措施提高患者满意度。
国家发改委经济运行局、中国建材联合会、中国水泥协会、中国钢铁工业协会、中国耐火材料协会、中国中材集团领导出席“金隅通达”控股合作“河南中原”签约仪式,热烈祝贺——
染料废水成分复杂、毒性大,其排放所造成的环境污染问题亟待解决。Fenton作为一种高效且操作简单的高级氧化技术已经被用于染料的降解中,但传统均相Fenton技术存在pH范围窄、
基于技术轨道理论和价值网络理论分析高速磁浮交通技术产业化进程陷入困境的原因。磁浮交通技术拥有成为下一代地面交通主导技术的潜力,磁浮交通技术的定位是补充现有交通体系
近年来,阅读推广活动在全国各高校蓬勃发展,活动规模不断扩大,内容不断充实,方式不断创新,影响日益扩大。本文针对高校图书馆阅读推广活动实践,构建了阅读推广体系,并依照阅
研究潜孔钻机行走液压系统的结构组成及其工作原理,建立了基于AMESim的行走液压系统仿真模型,对3种典型工况进行了仿真分析,并利用试验验证了仿真模型的正确性。研究工作为潜
财务治理是现代财务管理体系中的一种新兴的管理手段。将财务治理应用于高校管理中,能够对高校财务管理起促进作用。通过阐述财务治理的内涵、模式,分析财务治理在高校财务管
答:电解质是泥浆加工生产中不可或缺的物质,可以调节泥浆的性能。泥浆中电解质的加入量和随着季节的变化调整加入量对泥浆的性能以及坯体的质量有很大的影响。也就是说,电解质对