论文部分内容阅读
分类问题具有不确定性,尽管由于多分类器融合技术在降低分类系统泛化误差、简化分类器设计等方面的优良表现,国内外对它的研究取得了不少成果,但至今还有许多关键理论和技术问题有待解决和完善。再者,由于标记样例的难以获取,近几年来,多分类器融合已经由传统的“有监督”多分类器融合,逐步拓展到“无监督”多分类器融合(也称“聚类融合”)、“半监督”多分类器融合(有标记的样例不足)两个更年轻的高不确定性的领域。因此,近几年来,国际上越来越多研究者投入到多分类器融合的研究中,使得该领域成为了一个相当活跃的研究热点。本文针对多分类器系统中信息融合问题,在全面介绍和分析分类器融合的研究现状、工作机理的基础上,提出了多种用于进一步提高分类器融合系统性能、扩大其应用范围的算法。本文的主要研究成果如下:针对传统多分类器设计框架仅适用于有标记资料的缺陷,提出了一种通用的自适应多分类器设计框架。该框架集成了各种资料条件下(最初无标记信息、中期有少量标记信息、后期有足够标记信息)的多分类器设计方法,具有自适应功能,对于一项应用能根据资料所处的阶段(无监督、半监督和有监督)自动调整。针对有监督分类器融合方法-模糊积分,对该方法中的重要问题-模糊密度确定问题进行了研究,首次将两种典型的静态确定方法进行了细致的比较研究。在此基础上,提出了一种动态自适应模糊积分融合算法,该方法的特点是采用一种新的基于模糊测度的差异性度量方法进行初始的成员分类器选择,并选择合理的初始模糊密度,引入修正系数对模糊密度进行自适应动态调整,不仅降低了融合的规模,而且提高了整体的性能。针对无监督分类器融合算法可能出现的信息失真问题,提出了一种基于信息滚动机制的平均互信息方法,并通过实验验证了其有效性;然而,也发现随着规模增大,暴露出易被噪声聚类成员干扰的缺陷。因此,将问题拓展,提出了一种基于蚁群算法的匹配方法,该方法具有随着规模的扩大而优势越来越明显的优点,为未来解决聚类类别不匹配的情况提供了一个方向。在此基础上,提出了一种新的无监督分类器融合算法,该算法兼顾聚类质量与成员多样性,采用一种新的相似性度量,并依据度量结果先对聚类成员进行剪辑操作,再分组、选择,最后根据了每个聚类成员对每类别的贡献设计了一种新的加权函数,与其他方法相比,该方法具有较好的稳定性与精确性针对半监督分类器融合算法中的两类算法(多视图和单视图),提出了两种基于统计的协同训练算法。多视图方面,提出了一种改进的基于统计方法的多视图协同训练算法,该算法采用多元统计方法KCCA对两视图中变量组进行分析,并在KCCA的应用过程中利用类标号信息产生奖励或惩罚因子,使得抽取的同类样本特征之间的相关最大化,同时使得不同类样本特征之间的相关最小化,最后采用二次确认的投票方法进行标注。实验表明,该方法在有标记样本占比例较小时,具有较明显的效果。单视图方面,提出一种新的单视图协同训练算法,该算法通过最小显著性差异(LSD)假设检验方法使得三个成员分类器两两之间具有显著性差异,然后采用D-S证据理论提高标注的稳定性,再用局部离群点检测方法-LOF算法对剔除误标记的噪声样本,从而很大程度上保证了新标记样本的纯净,实验验证该方法具有较高的分类精度和稳定性。