论文部分内容阅读
分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的研究和快速的发展。论文介绍了垃圾邮件的危害性以及常见的过滤技术,分析了现有的垃圾邮件过滤技术与普通的文本分类问题之间存在的异同。同时还分析了当前这些垃圾邮件过滤技术的优点与不足,并针对这些原因提出了一些解决的办法。论文提出一种基于静态过滤和集成机器学习的邮件过滤系统的设计方案,最后通过实验验证了方案的有效性。论文的主要内容有: (1)分析和总结了目前基于内容的垃圾邮件过滤技术的现状,从文本表示、特征选择、分类算法、评价体系等方面分析和总结了文本分类中不同方法之间的技术特点、发展趋势和可改进的地方。 (2)特征过多会使训练集噪音过大,规则学习难度增大,时间耗费过多,尤其是规则学习精度降低。但目前有关特征的主要研究集中在特征提取上,而有关特征约简的研究较少。论文提出了一种基于粗糙集理论的特征约简算法。该算法以特征提取时计算得到的特征交叉熵为启发信息,将特征与粗糙集中的属性联系起来,采用粗糙集属性约简算法降低了特征维数,提高邮件处理效率。 (3)设计了一个基于静态过滤和集成机器学习的邮件过滤系统。在静态过滤和粗糙集特征约简的基础上,通过规则库或者朴素贝叶斯和支持向量机两种方法的集成学习来判定邮件类别,并且不断更新系统的规则库,同时根据两种方法各自的判定结果来调整它们在合成公式中的权重。最终无论规则库还是合成公式都更加有针对性和实用性。 (4)在Windows操作系统下用Visual Studio.Net2005开发环境实现了本文提出的基于静态过滤与机器学习的垃圾邮件过滤系统,并且给出了过滤系统功能模块的具体设计。通过KeyLib和CDSCE June2005两份邮件语料库对系统进行详细的效果测试,并从查全率、准确率、精确率和F值多个指标证实了该系统的高效性及实用性。 本文的主要创新有以下几点: (1)将粗糙集理论与特征提取相结合,提出了一种基于粗糙集属性约简的特征提取算法。该算法以特征交叉熵为启发信息,能够有效的约简大量的冗余特征,提高选取特征的代表性,降低特征维数,减少邮件判定时间,并且提高邮件过滤准确性。 (2)提出了基于朴素贝叶斯和SVM方法的集成学习算法。同一封邮件两种方法分别学习,结果通过合成公式合成。初始系数均为0.5,通过大量语料库的学习不断调整两种方法的结果合成权重,最终达到针对该用户最合适的系数权重。 (3)规则库会随着邮件的变化而相应调整。规则库中每一条规则的每一次使用都会有一个反馈作为对该规则的评价。而且为了保证查询的效率用户可接受,对规则库的规则数量作一个限制,譬如2000.规则库的动态更新一方面依据规则的使用评价为依据,另外一方面也受到规则库的规则数量限制。也就是达到数量限制以后,表现最差的规则或者很长时间没有使用的规则就会被新生的规则代替。