论文部分内容阅读
作为大规模信息处理重要的应用技术之一,文本分类有其不可忽视的重要性。现有大部分的文本分类方法,无论是二类分类还是多类分类,所分类别都处在同一个层次,即处于同一个平面类空间上。在文本类别数量庞大的情况下,平面分类的性能会受到很大制约。可人们发现有些类别在一起比和别的类别更有共性,可以组成一个类别的集合,从而提出了层次型分类的概念。层次型分类是把分类系统构造为层次结构,即把各类按照一定的层次关系组织成树状结构。因此,层次型分类从结构和性能上,对分类方法来说是一个大的改进,是一种有效的分类途径。本文就中文文本的层次型分类方法进行了研究。主要研究结果如下:1.提出了基于向量空间模型的二重特征选择方法(Feature Dual-Selection, FDS)和层次分类算法(Hierarchical Text Classification, HTC)。针对层次分类的结构特点,本文提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。由于在某一层中对分类贡献大的某些特征在另一层中并不一定重要,为了突显各个特征在不同层次中的重要程度,因此二重特征选择方法对每一层均进行一次特征选择,并设定权重系数δ,逐层改变特征数量和权重计算方法。HTC算法摒弃了一般的层次分类算法即只使用一种分类方法进行分类,把分别对粗分和细分更有效的类中心向量法与支持向量机(Support Vector Machine, SVM)方法相结合,通过在分类时设定的差值阈值α来调节对分类方法的选择,达到了分类方法的优化。2.引入最大熵模型进行文本的层次型分类。最大熵理论是一种在广泛应用于自然语言处理中的概率估计方法,它使未知事件的概率分布总是尽可能均匀,即倾向于得到最大熵。对于文本分类问题,通过建立最大熵模型,把事件集当作类别集,将上下文环境当作文本集,那么就可以使用最大熵模型求任意一篇文档属于任意类别的概率。但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本层次分类的研究尚未见到。把该方法和层次分类相结合,是对中文文本层次型分类的新的探索。最后我们把本文在这两个方面的研究与其他方式进行了比较,用实验验证了本文提出的二重特征选择方法FDS和层次分类算法HTC相对于平面分类和一般的层次分类方法,具有较高的准确率;最大熵方法的效果和主流的分类算法相当,切实可行,是一种值得关注的文本分类方法。并且自己构建了一个唐诗的层次语料库,使用本文研究的方法把唐诗按内容进行层次分类,是层次分类方法在文学领