论文部分内容阅读
自动文本分类技术的主要任务是将非结构化的文本数据划分到相应的分类体系中。文本分类有着广泛的应用,例如新闻门户网站中的新闻自动分类、个性化广告推荐、垃圾邮件过滤、数字图书馆资源管理等。集成学习是机器学习的主要研究方向之一,其思想是使用多个子分类器对样本进行分类,并使用某种组合方式将各个子分类器的分类结果进行整合,得到最终的分类结果。相比单分类算法,集成学习具有更高的分类准确率和泛化能力。本文将集成学习运用到文本分类中,研究了文本自动分类和集成学习的相关理论,对文本分类和集成学习的关键技术进行了详细介绍。提出了一种适用于高维数据的特征选择方法和两种改进的集成分类算法。具体来说,本文做了以下几方面的工作:1、在将文本转换为向量空间模型后,将会得到一个高维稀疏矩阵。对数据进行降维时,单独使用信息增益或粗糙集属性约简的方法均有一些不足。本文将两种方法进行结合,提出一种基于粗糙集的二次特征选择方法,该方法可以发挥两种特征选择方法的优势,最大限度过滤冗余特征。2、提出了RRE_Classifers集成分类算法。该算法借鉴了Bagging和随机森林的思想,首先对原始训练集样本进行有放回的抽样,将得到的结果进行特征抽样,产生最终的训练集。由此训练差异性较大的子分类器,相比于Bagging,该算法可以使用更多的有差异性的子分类器,并且分类效果更好。3、提出了EBB_Classififers集成分类算法。该算法维护一个错误池,错误池中存放之前的子分类器错误分类的样本,之后随机将这些错分样本加入后续的训练集。使之前的训练结果能够对后续训练有帮助。4、对Bagging和提出的两种改进算法进行复杂度分析,并通过实验对三种算法的运行时间进行对比。5、在Tan Corp、搜狗语料库和复旦大学语料库三组中文标准语料库上进行实验,实验结果表明,本文提出的特征选择和集成分类算法有较好的性能。