论文部分内容阅读
本文就中文文本分类和聚类中的特征选择问题,从特征选择的评估函数角度出发进行了深入的研究,用大量的实验综合比较了有监督和无监督的特征选择方法在中文文本分类和聚类上的特点。此外,根据基于类别区分词的特征选择方法中缺少类别区分词的不足,提出了改进方案,即用本文中介绍的有监督特征选择方法重新获取类别区分词以弥补这种不足,通过在两个中文语料上进行的实验表明,改进的类别区分词特征选择方法有更好的分类效果。为了研究有监督特征选择和无监督特征选择的结合问题,把原本用于文本聚类的词同现特征选择,加上有监督特征选择中评估函数提供的类信息改进此方法用于文本分类,经过实验表明,两者的结合取得比较好的文本分类结果。