论文部分内容阅读
自动文本分类技术是内容管理研究的热点之一。大部分内容管理系统中的类别层次都对应一定的分类法(例如yahoo)或者存在一个预定义的具有类似于树型结构的分类体系,这就要求在内容管理系统中使用的文本分类技术具备层次分类能力;然而现有大部分的分类技术都局限于水平分类,即认为类别之间是无结构的,相互独立的。 本文首先对文本分类所涉及到的各方面的技术进行了概括,重点提出了一种基于支持向量机(SVM)的自动层次文本分类方法HTCSVM,支持向量机是由Vapnic在1992年提出的,是一类相对比较新的机器学习方法,它是建立在统计学习理论和结构风险最小化基础之上的,是迄今在分类方面最好的方法,具有完备的数学理论基础和其他方法所没有的优良特性。目前SVM在层次分类方面应用的较少。本文对HTCSVM层次分类方法进行了时间复杂度分析,推导出HTCSVM层次分类方法在训练阶段的时间复杂度为多项式阶。并且利用本文提出的层次分类性能评估框架PMFHC对HTCSVM层次分类方法进行了评估,实验结果表明:HTCSVM分类方法的分类效果是令人满意的。本文成功的将HTCSVM层次分类方法应用于陕西省工业攻关项目(项目编号:2003K05-G32)中,项目的实际运行情况证明了HTCSVM分类方法是稳定可靠的,并且在分类精度方面能够满足实用要求。 为了评估层次分类性能,本文提出了一种新的层次分类性能评估框架PMFHC,该框架引入了类别相似度和类别距离的概念,在评估时充分考虑类别之间的层次结构关系对分类性能的影响。PMFHC评估框架是对水平分类性能评估方法的扩展,并且与它保持兼容。 本文还对几种有代表性的文本特征选择策略进行了研究,并对它们进行了对比实验,结果证明:x~2统计(CHI)方法对分类性能的提升贡献最大,本文最终采用该方法作为特征选择策略。