论文部分内容阅读
随着科技的迅速发展,数据的分析与利用已成为研究的热点。数据挖掘是从数据中获取有用知识的学科,其重要的任务之一就是分类,而现实生活中数据则常用多类标分类模型。在现阶段的研究中,针对多类标分类问题中类标之间依赖关系的研究,存在两个方面的问题:(1)大多数多类标学习算法在利用类标间的依赖关系时,缺乏一个统一明确的类标间依赖关系的描述模型和确定的利用方法,且构建其依赖关系的策略相对简单;(2)贝叶斯网络是一个典型的模型,然而构建完整的贝叶斯网络模型是及其复杂的,其被证实是一个NP-hard问题。因此如何通过现有的理论,构建合理的限制性贝叶斯网络是研究的重点。针对以上两个问题,本文在贝叶斯网络模型的基础上研究了如何合理地描述类标之间的依赖性来提高多类标分类模型的性能。本文主要包括以下研究工作:(1)研究如何用合理的策略构建类标之间的依赖关系,减少类标之间的错误和冗余信息,以提高分类模型的性能。本文的研究中结合了特征选择中常用的属性相关性的算法理论和遗传算法的启发式搜索理论,优化类标之间依赖关系。首先,根据属性相关性的理论综合考虑类标之间的相关性,类标和条件属性之间的相关性,给类标之间相关性大的类标子集赋予较高的评价值。然后,在传统遗传算法的全局搜索中,本文修改三个方面以适应多类标分类模型:1)修改属性相关性算法的理论计算公式,用于遗传算法的个体适应度评价函数;2)使用分类器链中部分链,以减少完整链携带的冗余和错误信息;3)修改了遗传操作中具有不同长度编码的个体的交叉和变异。(2)研究通过构建类标的限制性贝叶斯网络结构以表示类标之间的依赖关系,并提出一种贝叶斯分类器链模型。该模型中贝叶斯网络给出一种类标之间依赖关系的度量,其主要是利用多种策略构建类标之间的有向树型贝叶斯结构。本文在构建多类标的贝叶斯分类器链模型的过程中采用了两个基本策略:1)通过考虑类标之间的条件独立性,减少模型中类标的数量;2)尽可能地减少模型中链序列的数量。通过以上基本策略构建贝叶斯分类器链模型,并在五个具体的方面使用不同的算法研究和比较各个算法特点和分类性能。这五个方面具体为:训练策略,链中类标顺序,每个基分类器中的类标数(链复杂度),不同的基分类器,算法的集成。综上所述,本文对多类标分类问题中类标之间依赖关系的问题进行了研究和实验,提出了基于属性相关性的多类标分类算法和基于贝叶斯分类器链的多类标分类算法。并用实验验证了合理构建类标之间的依赖关系能提高分类模型的性能。