论文部分内容阅读
随着各个行业数字信息呈现指数式的增长,为方便信息组织和管理,需对海量电子信息数据按其内容进行分类,因此对文本自动分类技术提出了更高的要求。目前比较成熟的研究和应用主要集中于单层文本分类,即事先所定义的类别均处在同一层,类别之间相互独立、不存在结构和关系。但在实际应用中,多层文本分类更符合文本之间的关系,这样文本的定位准确度就更高;另外,多层文本分类把大的分类问题转化为多个子分类问题,能够有效地降低时间和空间的复杂度,使得在文本分类过程中采用复杂的分类算法仍可能获得较好的分类效果。
公安系统的案件数量庞大且种类繁多,案件类别之间有着明显的层次关系,且同一案件按照不同的角度可以归到多个类别。如,交通肇事类可以归为普通的交通事故案,也可归为故意伤人案件,这是因为案件的分类既要考虑到动机又要兼顾结果的因素。因此,本文重点研究多层文本自动分类技术,并设计了一个基于向量空间模型的多层文本分类器实现海量公安案件文本数据的自动分类,实验证明该分类器具有较好的分类性能。本文具体研究工作如下:
(1)分析了案件信息文本的特点并综合应用了分词技术、特征提取技术、特征降维技术以及文本表示方法将案件文本转换成能够直接应用于分类的数据形式。
(2)为了扑捉每个类别的特征应用于分类任务,提出了基于多重特征选择的多层文本分类特征提取方法。
(3)基于中心向量文本分类算法思想,将文本和类别(某一类文本)用向量空间模型(VSM,Vector Space Model)进行表示并通过计算文本与类别相关度,实现对案件信息文本的多层分类。文中给出了文本与类别相关度计算方法并对类别向量模型的权重公式作了深入分析,提出了基于文档频率(DF,Document Frequency)和互信息(MI,Mutual Information)相结合的DF-MI权重公式,并与经典的权重计算公式TF-IDF进行了比较,实验证明DF-MI权重公式比经典的TF-IDF权重公式在案件文本分类中更具有优越性,且获得很好的分类性能。
(4)分析了平面文本分类器的性能评价指标直接应用于层次文本分类器性能评价的不足,文中引入了错误分类分布矩阵(ECDM,Error Classification Distribution Matrix)和错误分类集中度(ECCR,Error Classification Concentration Ratio)的性能评价方法。该方法与平面分类评价指标进行综合不仅能够更加准确的评价多层文本分类的性能,且可以用于指导分类器的训练,从而进一步提高分类器得分类性能。
(5)针对案件信息文本之间信息交叉比较严重,导致分类器对某些类别区分能力比较弱的问题,文中引入了基于聚类算法(Clustering Algorithm)的混淆类判别技术,然后通过消除混淆类别之间的共有特征,以进一步提高分类器的分类性能。