面向中文垃圾邮件过滤的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:fsdgvii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现时代不断发展的互联网使电子邮件用户的数量也跟随不断地增加,电子邮件成了人们工作,生活必不可少的交流工具。但是,垃圾邮件也随之不断蔓延,这给电子邮件服务提供商和用户带来了很大的危害以及损失。为了解决垃圾邮件问题,反垃圾邮件技术也在不断地发展和改进,基于机器学习的垃圾邮件技术已经成为目前反垃圾邮件的主流技术。基于机器学习的方法可以适用于不同语言的垃圾邮件过滤中,在以往的研究中比较多的分析研究了在英文中的垃圾邮件过滤,而在中文数据集上的研究分析较少,为了研究出更适合中文垃圾邮件的过滤模型和技术,本文主要对中文垃圾邮件过滤做了相关研究和分析。首先,本文从中文垃圾邮件入手,分析了中文垃圾邮件的一些特点,过滤技术和基于机器学习过滤模型的一些算法,为下文中的展开研究做了理论基础。研究分析了多种特征提取方法,本文采用4元文法提取方法,分析了它的优点,并给出了具体提取过程。并通过分析,本文采用在线的过滤模式,提高了过滤器的适应能力。其次,研究分析了以朴素贝叶斯模型为代表的生成模型和以逻辑回归模型、在线松弛支持向量机模型为代表的判别模型的过滤算法原理,并在此基础上,改进一些方法,选择调试一些参数,来达到在中文数据集上过滤最优的模型。而后,比较了三种模型在四个中文数据集上的过滤性能。对实验结果分析得出了判别模型的过滤性能较好,而且在线松弛支持向量机模型效果更好,在SEWM数据集上达到了最优。最后,在上一部分证明了中文数据集上判别模型的效果较好,为了进一步提高过滤器的性能,在较好的判别模型上引入了两种主动学习算法:b-Sampling采样法和TONE采样法,实现算法并调整最佳参数,使用相同的四中中文数据集分别应用于逻辑回归模型和在线松弛支持向量机模型,两种方法以及不采用主动学习方法进行了对比实验分析。在实验结果看来,引入主动学习方法效果较好,并且TONE的主动学习方法效果比b-Sampling方法更好。为了观察性能较好的TONE方法的时间代价,由于时间关系,只拿SEWM11数据集在在线松弛支持向量机模型上测试了过滤时间,发现比不使用主动学习方法时的时间降低了近十倍。
其他文献
基于波动方程的声学模拟能够获得声波在空间中真实的传播效果,在许多工程应用中起着基础作用。但因其巨大的计算量,一直是工程计算中的难点。利用现代GPU技术对波动方程求解
社交网络中社会标签化服务的出现,使得用户可以在上传图像等网络资源的同时,使用标签对资源进行标注,而且用户可以对已上传的网络资源进行主题描述、评论等。这些用户标注或
联合补充问题(JRP)在高效管理库存和节约成本方面具有非常重要的意义。由于需求等大量因素受市场环境以及外界条件影响很大,会出现各种难以预料的波动,因此往往不能达到精确的
企业服务总线(Enterprise Service Bus,ESB)基于SOA(Service OrientedArchitecture)架构可以实现异构应用系统的高效整合,成为企业应用集成(Enterprise Application Intergrati
学位
随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续
图像增强是图像低层视觉处理的一个基本问题。如何结合人类视觉系统(HVS)对图像的对比度色彩饱和度等的感知特性,设计颜色高保真和细节明显的图像增强算法是图像增强领域的研
随着信息和通信技术的发展,网络已成为支撑现代社会经济发展、社会进步和科技创新的最重要基础设施,如何建立一种低复杂、易管理、高灵活性的未来网络系统,来满足日益增长的专用
在科技日益进步的今天,数据量急剧增长。如果能够充分利用这些数据所隐含的信息,将会产生巨大的经济效益。由于聚类分析技术具有能够处理庞大数据信息的功能,所以它在数据挖掘领
网格计算作为一种新型的具有广泛应用前景的分布式技术,其安全问题一直是研究的热点。在网格计算环境下,网格中的资源具有一些其它系统中的资源所不具备的特点,包括资源异构