论文部分内容阅读
数据挖掘是从数据中获取知识和信息,并进行决策的有效手段。分类是数据挖掘的重要任务,它根据样本的数据特征判定其所属类别。目前许多成熟有效且各具特点的分类方法得到了深入研究和广泛应用,但仍有各自的局限性和不足。在分类过程中,特征变量筛选通常能够起到简化问题、提高分类精度和效率的作用。马田系统(Mahalanobis-Taguchi System, MTS)是一种结合马氏距离、正交表和信噪比进行分类和诊断的新型模式识别方法。MTS具有的能够筛选重要特征变量、对数据分布不需要进行假设、分类速度快等优点使得它在工业生产、企业管理和模式识别等领域得到了广泛的应用。作为一种较新的分类方法,它在理论基础和方法使用上存在一些缺陷和严谨性问题,如:特征变量筛选方法有待改进、阈值确定主观性较强、局限于二类分类等。除了用于分类和诊断之外,MTS的特点使得它还可以用于排序(综合)评价。本文针对MTS的不足,以MTS改进为主线,以优化方法为主要手段,目标是发展MTS使其成为一种实用有效的分类和排序评价方法,并应用于现实问题。本文的研究工作有以下几个方面:(1)基于全方位优化算法的MTS二类分类方法研究针对传统MTS在分类过程中采用正交表和信噪比筛选特征变量以及采用损失函数法确定阈值存在的缺陷,使用多目标优化和全方位优化算法替代以进行改进。综合考虑分类精度、望大特性信噪比和降维程度等目标构建了多目标优化模型并用全方位优化算法求解以筛选特征变量和确定阈值;采用数据集实验和比较的方式对方法的有效性进行了验证和讨论;将方法用于产品质量检测的现实问题。研究结果表明,该方法不仅有很高的分类精度,还能有效的筛选特征变量,对传统MTS有了较大改进。(2)基于全方位优化算法和概率阈值模型的MTS不平衡数据分类方法研究类别不平衡是分类问题常常面临的挑战。MTS通过马氏距离构建一个连续测量尺度而非直接对训练样本进行学习的性质有望不受类别不平衡的影响,而阈值的合理确定对该问题更加重要。提出了一种概率阈值模型用于MTS不平衡数据分类阈值的确定;综合考虑不平衡数据分类性能评估指标的g/F值、望大型信噪比和降维程度等目标构建多目标优化模型并用全方位优化算法求解以筛选特征变量;采用数据集实验和比较的方式对方法的有效性进行检验和讨论。研究结果表明,该方法对不平衡数据有良好的分类能力,同时还能筛选重要特征变量。(3)MTS多类分类方法研究MTS是一种二类分类方法,不能直接用于多类分类。本文研究了两种MTS多类分类方法——二叉树MTS和多马氏空间特征变量筛选MTS。二叉树MTS通过二叉树与MTS的结合,将多类分类问题进行分解。研究了二叉树MTS的实施过程和步骤,以及二叉树的构建方案等。多马氏空间特征变量筛选MTS通过为每类构建马氏空间,运用距离判别思想构建分类器,同时优化特征空间。研究了多马氏空间特征变量筛选MTS的实施过程和步骤,综合考虑分类精度、改进的望大型信噪和降维程度等目标构建多目标优化模型并用全方位优化算法求解以筛选特征变量。采用数据集实验和比较的方式对两种方法的有效性进行了检验和讨论。最后将MTS多类分类方法应用于政府投融资平台企业的信用等级评价。研究结果表明,多马氏空间特征变量筛选MTS有着更高的分类精度和特征变量筛选效果,具有更高的应用价值。(4)MTS排序评价方法研究MTS目前主要用于分类问题。实际上,MTS可计算出样本相对于基准空间(马氏空间)的马氏距离,得出样本偏离的程度,从而对待测样本进行排序。本文研究MTS排序评价方法,具体包括:MTS排序评价方法的过程及步骤;基于全方位优化算法的评价指标筛选模型;采用算例和比较的方式对MTS排序评价的有效性进行分析和讨论。研究结果表明,MTS排序评价方法不需要确定指标权重,能够保持评价基准的一致,且能够筛选指标,是一种有效的评价方法,但基准空间的确定机制需要进一步研究和完善。综合以上研究工作,本文的主要贡献和创新点有:(1)识别不同的分类或排序评价目标,在MTS特征变量筛选这一核心问题中导入优化思想,创新性的提出和研究了特征变量筛选的多目标优化模型以替代传统MTS的正交表,并采用先进的全方位优化算法求解,是一种新的特征变量筛选方法。(2)根据不同的分类目的,采用优化或概率模型替代传统MTS的损失函数(或穷举法)来确定MTS进行分类时需要的阈值,这是MTS新的闽值确定办法。(3)通过概率闽值模型、二叉树和多马氏空间等手段,将MTS二类分类方法成功的扩展到了不平衡数据分类和多类分类,并验证了这些方法的有效性,是新的不平衡数据分类方法和多类分类方法。