论文部分内容阅读
随着电子邮件的普及,垃圾邮件问题日益凸显,其数量急剧增长,内容千变万化,具有破坏性强,传播速度快,危害范围广等特点,已经成为全球化公害。如何有效地过滤和治理这些垃圾邮件成为当前的迫切要求。现有的垃圾邮件过滤技术主要包括基于规则的过滤和基于内容的过滤两大类。基于规则的过滤方法加入的主观因素较多,抗干扰能力较弱,规则制定的好坏将直接影响邮件的过滤效果。基于内容的过滤作为当前垃圾邮件处理所采用的一种主要技术手段可以通过文本分类的相关算法针对邮件内容自动寻找规律,本文主要针对基于内容的过滤方法进行相关研究。本文从邮件的预处理、特征选择、权重计算和分类器的设计等方面对如何改善垃圾邮件的过滤性能进行了探索,并对现有的算法在垃圾邮件过滤中存在的问题进行了分析。针对基于内容的垃圾邮件过滤算法存在的“维数灾难”等问题,预处理中加入词频和文档频度过滤,采取双重特征选择算法,有效的降低了冗余信息和噪声数据对分类性能的影响。针对垃圾邮件与正常邮件在语义表述上存在的差异性,本文提出一种基于类别信息的LDA特征选择及加权算法Categories-LDA,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息。该算法不但利用了LDA模型基于隐含主题建模的优点,而且还有效的克服了由于忽略类别主题差异性所造成的系统过滤性能下降的影响。本文将反馈学习与随机森林算法相结合,继承了决策树集成与反馈学习的优势,针对垃圾邮件种类实时变化的特点和客户群对邮件判别的差异性,实现邮件过滤系统的自适应调节,及时捕捉到垃圾邮件的变化趋势,搭建客户与过滤系统的内在联系平台。实验表明:基于类别信息的LDA特征选择及加权算法采用反馈学习的随机森林分类器可以有效的提高邮件的分类精度。在CCERT中文语料库的2005-Jun子集上系统精确率提高约2%,在Trec06中英文语料库上垃圾邮件的准确率提高约3%。