论文部分内容阅读
本文研究内容基于国家自然科学基金项目“项目管理中项目关联分析与立项决策支持系统研究”,项目的相关性分析依据项目建议书的研究内容,这里涉及的一个基本问题就是文本分类问题。 文本分类问题涉及到文本模型表示、特征选择、分类算法以及权重设置等多种方法的综合应用,需要针对不同的文本集合特点选择合适的分类方案。本文目的是针对不同类型的文本集合,提出一种判断类型的方法,结合文本集合类型与分类相关方法特点,分析可行分类方案,通过实验验证可行方案分析的正确性并找出最佳分类方案,最后通过实例验证可行方案与最佳方案的正确性。并根据应用要求开发一种集成多种文本相关分类方法的原型系统。 首先是文本分类相关方法的特点分析。针对文本分类方法包括文本表示模型、文本分类算法、特征选择方法以及权重设置方法等,根据定义并参考一些文献分析并总结了各种方法的优势与不足。 其次是文本集合的特点分析及文本分类方案的构造与选择。重点分析了不同类别结构的文本集合的特点,并提出在类别结构上不同类型的文本集合的类型判断方法与判断标准。针对不同类型特点,结合分类方法的特点分析可行分类方案并给出最佳分类方案的评价标准和选择方法,通过实验得出最佳分类方案同时验证了可行方案的正确性。 第三是分类原型系统分析与设计。本文对集成多种分类方法的文本分类原型系统进行设计与实现。根据对文本自动分类流程的分析并考虑系统的安全性、灵活性和易维护性进行系统的设计。 最后是分类原型系统的实现与应用实例。本文依靠实现的文本分类原型系统,对两种类型文本集合进行实例计算,根据计算结果和分类方案性能评估标准找出两类文本集合的最佳文本分类方案同时进一步验证了可行方案的正确性。