论文部分内容阅读
随着因特网的普及和海量在线电子文本的广泛应用,文本数量呈爆炸性趋势增长。文本分类作为组织和管理海量文本信息的重要技术在很多领域都得到了非常广泛的应用,已经成为数据挖掘领域的一个重要研究热点。然而,文本数据的高维特性一直是困扰文本分类效果的一个重要难题。巨大的特征空间不仅会增加计算的复杂度,而且还会影响文本分类算法的性能和泛化能力,造成“过度学习”现象。因此,如何对高维特征进行有效的降维已经成为影响文本分类算法性能的关键步骤。一般而言,特征选择和特征抽取是常用的两种特征降维方法。特征选择的方法是指通过构造函数对原始特征空间中的特征进行逐一评分,然后按特征得分的高低顺序依次选取有效的特征,具有过程简单和操作简便等特点。相比较而言,特征抽取是通过映射的方法将原始特征进行重新组合从而得到一组新的特征,然后针对原始特征的组合情况进行选择,能够在一定程度上解决同义词和多义词问题。然而在实际应用中,由于特征选择方法忽略了词语的同义和近义表述现象,导致文本分类性能不高,于是本文针对特征抽取方法进行研究,提出了一种基于类间距离最大化的特征抽取方法。该方法通过投影后不同类别文档间的距离最大化来构建优化函数,并通过拉格朗日乘子法来获取映射矩阵。以上方法在复旦大学中文语料库上进行试验,实验表明采用该特征抽取方法后,文本分类的准确率与目前基于卡方统计的特征选择方法相比得到显著提升。