论文部分内容阅读
随着计算机与通讯技术的飞速发展,信息量呈指数式增长,这使得稿件数量极度膨胀,研究领域不断细化,造成稿件分类的周期延长,论文评审速度减慢,效率降低。同时,缩短稿件评审周期、加快其处理流程已成为新时代期刊杂志发展的趋势。对此,本文研究稿件分类工作,将其智能化,设计稿件分类决策支持系统,提高稿件分类的效率,这对加快稿件评审工作,促进期刊杂志业的发展具有重要意义。本文首先论述决策支持系统的概念、特点、功能及体系结构,文本分类的处理流程及常用算法,并阐述了多分类器融合的组合方式及融合算法。然后,对稿件分类决策支持系统进行需求分析,设计系统的流程及架构体系—三部件结构,即数据库、模型库及人机接口。根据稿件分类的决策流程,设计的模型库主要包括预处理模型库、基于向量空间模型的文本表示模型库、基于文档频度模型的特征值提取模型库、单分类器模型库、分层技术及保持法测试模型,分类结果评估模型,其中单分类器模型库包含朴素贝叶斯分类模型、KNN分类模型、中心向量比较分类模型,并对KNN分类模型进行了改进设计。针对不同单分类器模型可能存在分类结果不一致的问题,根据模型的输出具有可度量性的特点,将群决策理论运用于多分类器融合中,采用混合组合方式,运用投票表决体制和社会选择函数设计多分类器融合模型,解决单分类器模型之间的矛盾。根据各类模型的设计,建立模型库的文件库和字典库,设计模型库管理系统,实现对模型库的有效管理。最后,利用C#语言,.NET框架开发实现系统的数据库和模型库。在单分类器模型开发过程中,针对朴素贝叶斯分类模型的输出问题进行修正。本文从管理科学与工程国际会议上收集已分好类别的955篇稿件,用于测试系统的可行性和实用性,并着重分析各分类器及多分类器融合模型的性能。实验结果表明,当训练集量大时,系统的分类效果较好;同一的训练集下,文本预处理方式对分类效果影响不大;改进的KNN模型明显提高了分类精度,而该算法中,K值的选取并不是越大,分类效果越优;就各分类器的分类效果而言,朴素贝叶斯模型较优,而本文提出的基于群决策理论的多分类器融合算法实现简单,且有效地提高了分类精度。