论文部分内容阅读
文本分类是处理和组织大量文本数据的关键技术。在文本分类中,特征空间的维数高达几万,导致样本统计特性的评估变得十分困难,甚至会降低分类模型的泛化能力,出现“过学习”的现象。因此,有效的维数约减可以提高分类任务的效率和分类性能。
本文关注的是特征选择问题,研究如何运用Boosting思想更好的实现文本分类中的特征选择。由于Boosting思想从提出到理论研究以及众多的实验都是针对分类问题的,并不能直接用于本文。本文提出在Boosting算法的框架下,不断的改变样本分布,选择在一次迭代中最具有类别区分能力的特征进入特征子集。本文在Boosting特征选择方法的研究中遇到两个关键问题:Boosting的循环终止条件和特征数量问题。对于前者,本文给出了三种方案:限定循环次数、训练错误不变、特征子集不变;通过实验对三种方案进行比较并得出结论。对于后者,研究特征选择时理论上可能出现的两种极端现象:所有特征都被选择,或者很少的几个特征被重复选择;实验表明这两种极端现象都没有出现。
特征选择目前没有一种较为独立的评价体系,往往直接跳步至分类的评价,本文通过引入更多分析加以弥补。Boosting的训练错误分析和泛化错误分析增强了Boosting理论上的支持。本文从两个方面分析比较特征选择方法,一方面比较过程,另一方面比较特征选择结果。从过程上,可以对比不同方法的目标函数、参数、限制等问题。从结果上,通过分析排名靠前的特征发现,Boosting方法选的特征覆盖大部分类别,而其他方法则只覆盖少数几个类别。
本文通过实验从不同角度来比较和评价特征选择方法,包括算法步骤的区别、参数选择、特征集合和分类性能。通过上述实验,验证Boosting特征选择算法的性能,并总结了特征集合的特点。