论文部分内容阅读
本文首先基于类别概念,讨论了文本自动分类中文档类别间的关系,在此基础上对文本自动分类的定义进行补充说明,并讨论了文本自动分类中与全体文档集合、训练集、类集合相关的若干问题,并结合具体分类算法进行了相关论述。具体内容如下:
(1)基于概念间的关系,讨论类别间的关系,分析了每种关系对应的实际分类问题;
(2)从集合论的角度出发,对文本自动分类问题的定义进行补充说明,指出文本自动分类是对全体文档集合的划分;
(3)将现有文本表示模型归纳为3种:“词袋模型”,“空间向量模型”,“图模型”,在此基础上分析了每种模型对应的全体文档集合;
(4)论述了训练集的相关性质,定量分析了训练集的稀疏性;
(5)论述了真实类集合和由分类器划分的类集合间的关系,在此基础上分析了分类器错分结果类型,指出分类器对错误是敏感的,提出分类器的错误敏感性;
(6)基于类别概念,从全体文档集合、等价关系、类集合3个方面分析了常见分类算法,重点给出了常见分类算法所得类集合的几何性质;
(7)提出基于向量空间模型分类算法的“重要点”结论,论述了重要点对提高分类器性能的重要性,并结合重要点,讨论基于类中心的“推拉调整策略”,提出了两种改进策略;
文章接着针对特征选择,论述了常见特征选择方法的缺点,并在分析、归纳文本权值计算框架的基础上,提出两种全局最优特征选择模型。模型一以最大化类中心距离为目标,模型二以最大化类中心距离方差为目标,本文给出了两种模型的具体算法。
最后,设计并构建文本自动分类系统,对本文给出的特征选择算法和对推拉策略的改进算法进行了相关实验,并分析了互信息和交叉熵两种特征选择算法性能较差的原因。