论文部分内容阅读
[摘 要]针对两类样本企业信用状况的重叠问题,提出一种基于投影寻踪和逆映射的样本预处理方法。该方法运用投影寻踪获得各样本点的一维投影值,通过逆映射提取一维投影值的散布特征,生成特征样本集,由此,在原高维空间中减少两类样本企业信用状况的重叠,从而有利于对两类样本企业的正确区分。
[关键词]信用风险;企业信用评估;投影寻踪;逆映射;特征提取
一、引言
信用评估最常用的方法是“分类”方法,即根据借款人的财务、非财务状况,将其分为“正常”(按期还本付息)和“违约”两类,这样信用评估问题就转化为统计学上的某种分类问题。20世纪30年代以来,信用评估方法先后经历了比例分析、统计分析和人工智能等三个发展阶段。然而,在实际应用过程中,由于信用风险的复杂性和数据的非良性结构,各种信用评估方法的分类效果均会受到不同程度的影响,特别是,当两类样本的信用状况出现重叠时,信用评估方法的分类效果将受到较大影响。对于两类样本企业,其信用状况通常有不重叠和重叠两种分布情形,在实际中,样本企业往往出现第二种情形,此时,对企业信用风险状况容易产生误判。针对这一问题的解决思路主要有:(1)对重叠部分的样本进行二次判别。如文献运用混合整数规划法,通过两阶段的再分类过程,对重叠部分的样本企业进行二次判别,在一定程度上提高了预测精度。(2)运用特定的方法和手段对样本数据进行预处理,以减少两类样本企业信用状况的重叠,从而提高预测精度。目前,基于第二条解决思路的研究文献较为罕见。
投影寻踪(Projection Pursuit,PP)是一种直接由样本数据驱动的探索性数据分析方法,特别适用于分析和处理非线性、非正态的高维数据,其基本思想是把高维数据投影到低维子空间上,寻找出能反映原高维数据的结构或特征的投影,以达到研究分析高维数据的目的。文献[7]证明了利用投影寻踪可以使两类样本在一维子空间上尽可能分离。文献[8]提出了将投影寻踪与支持向量机结合应用于企业信用评估的思路。但上述研究均是在一维子空间上进行分类识别,易丢失有效信息。有鉴于此,本文针对两类样本企业信用状况的重叠问题,着眼于第二条解决思路,提出一种基于投影寻踪和逆映射的样本预处理方法。该方法运用投影寻踪获得各样本点的一维投影值,通过逆映射提取一维投影值的散布特征,生成特征样本集,由此,在原高维空间中减少两类样本企业信用状况的重叠,从而有利于对两类样本企业的正确区分,可在一定程度上提高信用评估模型的预测精度。
二、基于投影寻踪和逆映射的样本预处理方法
对于企业信用状况的两分类问题,设有个企业组成训练样本集,其中,个样本为“正常企业”,个样本为“违约企业”,。企业信用评估指标集, 为训练样本在指标下的指标值。基于投影寻踪和逆映射的样本预处理方法具体步骤如下:
步骤1:评估指标值的归一化处理。为消除各评估指标的量纲和统一各评估指标的变化范围和方向,须对评估指标值进行极值归一化处理。
对于成本型指标,令
(1)
对于效益型指标,令
(2)
式中:分别为第j个评估指标的最大值和最小值。
对于固定型指标,即指标值越接近某一固定值越好的指标,有
(3)
式中:为第j个评估指标的最佳稳定值。
步骤2:构造投影指标函数。PP方法就是把维数据综合成以为投影方向的一维投影值:
(4)
上式中,为单位长度向量。PP方法在综合投影值时,要求投影值的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。由此,投影指标函数可构造为
(5)
式中,为投影值的标准差,为投影值的局部密度,即:
(6)
(7)
其中,为的均值;R为求局部密度的窗口半径,它的选取既要使包含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着m的增大而增加太快,R一般可取值为0.1;点间距离;为单位阶跃函数,当时其函数值为0,当时其函数值为1。
步骤3:优化投影指标函数。当样本集给定时,投影指标函数只随投影方向的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向。通过求解投影指标函数最大化问题可估计最佳投影方向,即
(8)
式(8)所设定的问题是一个以为优化变量的复杂非线性优化问题,常规优化方法较难处理。模拟生物优胜劣汰规则与群体内部染色体信息交换机制的实码加速遗传算法(Real Coded Accelerating Genetic Algorithm,RAGA)是一种通用的全局优化方法,用它来求解该问题则十分简便而有效。RAGA的具体算法参见文献[9]和[10]。
步骤4:通过逆映射提取一维投影值的散布特征,生成特征训练样本集。把由步骤3求出的最佳投影方向代入式(4)后可得各样本点的一维投影值。由的散布特征可知,在整体上,“正常企业”样本的投影点团与“违约企业”样本的投影点团之间已尽可能分离。为在原高维空间中生成具有一维投影值 散布特征的特征训练样本集,可将投影轴上的投影点逆映射到原高维空间用原始变量表示。逆映射采用定理1来计算。
定理1(内插、外推公式):已知投影轴上a、b两点和它们在高维空间相对应的点、,通过a、b两点直线上的任一点c在高维空间的坐标为:
(9)
式中,为内插、外推步长,其值等于a、c两点间的距离与a 、b两点间距离之比,内插时,,外推时,。上式的外推方向是从到c,如从到c,上式中的a、b两点要交换位置。
根据本文的研究目的,同时,不失一般性,本文选取和作为逆映射中的两个已知点,它们在原高维空间中对应的点分别为和,则由定理1计算得出特征训练样本集。
步骤5:生成特征测试样本。对于一个新的测试样本,首先,运用式(1)-(3)对测试样本的评估指标值进行标准化处理,特别地,当测试样本的第j个指标值在训练样本指标值区间()内时,即为归一化处理。然后,根据由训练样本集得出的最佳投影方向和式(4)计算出测试样本的一维投影值。最后,按照步骤4,通过逆映射,生成特征测试样本。
三、结束语
本文针对两类样本企业信用状况的重叠问题,运用投影寻踪技术,通过优化投影指标函数获得最佳投影方向,由最佳投影方向计算出各样本点的一维投影值,使两类样本在一维子空间上尽可能分离;然后,通过逆映射提取一维投影值的散布特征,生成特征样本集,由此,在原高维空间中减少两类样本企业信用状况的重叠,从而有利于对两类样本企业的正确区分,可在一定程度上提高信用评估模型的预测精度。本文提出的样本预处理方法为解决两类样本信用状况的重叠问题、提高信用评估方法的分类效果提供了新的方法和思路。
参考文献:
[1]丁 欣:国外信用风险评估方法的发展现状[J].湖南大学学报(社会科学版),2002,16(3):140-142
[2]薛锋 柯孔林:基于混合整数规划法的企业信用风险评估研究[J].中国管理科学,2006,14(2):39-44
[3]Martin D. Early warning of bank failure: a logit regression approach[J].Journal of Banking and Finance,1977,1(11):249-276
[4]Sueyoshi T. Mixed integer programming approach of extended DEA-discriminant analysis[J].European Journal of Operational Research ,2004,152(1):45-55
[5]Friedman J H,Turkey J W. A projection pursuit algorithm for exploratory data analysis[J].IEEE Transactions on computer,1974,23(9):881-890
[6]Huber P J. projection pursuit (with discussions) [J].The Annals of Statistics,1985,13(2):435-475
[7]王春峰 李汶华:商业银行信用风险评估:投影寻踪判别分析模型[J].管理工程学报,2000,14(2):43-46
[8]赵晓翠 王来生:基于投影寻踪和支持向量机的模式识别方法[J].计算机应用研究,2007,24(2):86-88
[9]付 强 赵小勇:投影寻踪模型原理及其应用[M].北京:科学出版社,2006.1-119
[10]金菊良 丁 晶:水资源系统工程[M].成都:四川科学技术出版社,2002.37-179
[11]鄢烈祥 麻德贤:过程系统寻优新方法-非线性映射主轴分析法[J].系统工程理论与实践,1999,19(9):79-84
[关键词]信用风险;企业信用评估;投影寻踪;逆映射;特征提取
一、引言
信用评估最常用的方法是“分类”方法,即根据借款人的财务、非财务状况,将其分为“正常”(按期还本付息)和“违约”两类,这样信用评估问题就转化为统计学上的某种分类问题。20世纪30年代以来,信用评估方法先后经历了比例分析、统计分析和人工智能等三个发展阶段。然而,在实际应用过程中,由于信用风险的复杂性和数据的非良性结构,各种信用评估方法的分类效果均会受到不同程度的影响,特别是,当两类样本的信用状况出现重叠时,信用评估方法的分类效果将受到较大影响。对于两类样本企业,其信用状况通常有不重叠和重叠两种分布情形,在实际中,样本企业往往出现第二种情形,此时,对企业信用风险状况容易产生误判。针对这一问题的解决思路主要有:(1)对重叠部分的样本进行二次判别。如文献运用混合整数规划法,通过两阶段的再分类过程,对重叠部分的样本企业进行二次判别,在一定程度上提高了预测精度。(2)运用特定的方法和手段对样本数据进行预处理,以减少两类样本企业信用状况的重叠,从而提高预测精度。目前,基于第二条解决思路的研究文献较为罕见。
投影寻踪(Projection Pursuit,PP)是一种直接由样本数据驱动的探索性数据分析方法,特别适用于分析和处理非线性、非正态的高维数据,其基本思想是把高维数据投影到低维子空间上,寻找出能反映原高维数据的结构或特征的投影,以达到研究分析高维数据的目的。文献[7]证明了利用投影寻踪可以使两类样本在一维子空间上尽可能分离。文献[8]提出了将投影寻踪与支持向量机结合应用于企业信用评估的思路。但上述研究均是在一维子空间上进行分类识别,易丢失有效信息。有鉴于此,本文针对两类样本企业信用状况的重叠问题,着眼于第二条解决思路,提出一种基于投影寻踪和逆映射的样本预处理方法。该方法运用投影寻踪获得各样本点的一维投影值,通过逆映射提取一维投影值的散布特征,生成特征样本集,由此,在原高维空间中减少两类样本企业信用状况的重叠,从而有利于对两类样本企业的正确区分,可在一定程度上提高信用评估模型的预测精度。
二、基于投影寻踪和逆映射的样本预处理方法
对于企业信用状况的两分类问题,设有个企业组成训练样本集,其中,个样本为“正常企业”,个样本为“违约企业”,。企业信用评估指标集, 为训练样本在指标下的指标值。基于投影寻踪和逆映射的样本预处理方法具体步骤如下:
步骤1:评估指标值的归一化处理。为消除各评估指标的量纲和统一各评估指标的变化范围和方向,须对评估指标值进行极值归一化处理。
对于成本型指标,令
(1)
对于效益型指标,令
(2)
式中:分别为第j个评估指标的最大值和最小值。
对于固定型指标,即指标值越接近某一固定值越好的指标,有
(3)
式中:为第j个评估指标的最佳稳定值。
步骤2:构造投影指标函数。PP方法就是把维数据综合成以为投影方向的一维投影值:
(4)
上式中,为单位长度向量。PP方法在综合投影值时,要求投影值的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。由此,投影指标函数可构造为
(5)
式中,为投影值的标准差,为投影值的局部密度,即:
(6)
(7)
其中,为的均值;R为求局部密度的窗口半径,它的选取既要使包含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着m的增大而增加太快,R一般可取值为0.1;点间距离;为单位阶跃函数,当时其函数值为0,当时其函数值为1。
步骤3:优化投影指标函数。当样本集给定时,投影指标函数只随投影方向的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向。通过求解投影指标函数最大化问题可估计最佳投影方向,即
(8)
式(8)所设定的问题是一个以为优化变量的复杂非线性优化问题,常规优化方法较难处理。模拟生物优胜劣汰规则与群体内部染色体信息交换机制的实码加速遗传算法(Real Coded Accelerating Genetic Algorithm,RAGA)是一种通用的全局优化方法,用它来求解该问题则十分简便而有效。RAGA的具体算法参见文献[9]和[10]。
步骤4:通过逆映射提取一维投影值的散布特征,生成特征训练样本集。把由步骤3求出的最佳投影方向代入式(4)后可得各样本点的一维投影值。由的散布特征可知,在整体上,“正常企业”样本的投影点团与“违约企业”样本的投影点团之间已尽可能分离。为在原高维空间中生成具有一维投影值 散布特征的特征训练样本集,可将投影轴上的投影点逆映射到原高维空间用原始变量表示。逆映射采用定理1来计算。
定理1(内插、外推公式):已知投影轴上a、b两点和它们在高维空间相对应的点、,通过a、b两点直线上的任一点c在高维空间的坐标为:
(9)
式中,为内插、外推步长,其值等于a、c两点间的距离与a 、b两点间距离之比,内插时,,外推时,。上式的外推方向是从到c,如从到c,上式中的a、b两点要交换位置。
根据本文的研究目的,同时,不失一般性,本文选取和作为逆映射中的两个已知点,它们在原高维空间中对应的点分别为和,则由定理1计算得出特征训练样本集。
步骤5:生成特征测试样本。对于一个新的测试样本,首先,运用式(1)-(3)对测试样本的评估指标值进行标准化处理,特别地,当测试样本的第j个指标值在训练样本指标值区间()内时,即为归一化处理。然后,根据由训练样本集得出的最佳投影方向和式(4)计算出测试样本的一维投影值。最后,按照步骤4,通过逆映射,生成特征测试样本。
三、结束语
本文针对两类样本企业信用状况的重叠问题,运用投影寻踪技术,通过优化投影指标函数获得最佳投影方向,由最佳投影方向计算出各样本点的一维投影值,使两类样本在一维子空间上尽可能分离;然后,通过逆映射提取一维投影值的散布特征,生成特征样本集,由此,在原高维空间中减少两类样本企业信用状况的重叠,从而有利于对两类样本企业的正确区分,可在一定程度上提高信用评估模型的预测精度。本文提出的样本预处理方法为解决两类样本信用状况的重叠问题、提高信用评估方法的分类效果提供了新的方法和思路。
参考文献:
[1]丁 欣:国外信用风险评估方法的发展现状[J].湖南大学学报(社会科学版),2002,16(3):140-142
[2]薛锋 柯孔林:基于混合整数规划法的企业信用风险评估研究[J].中国管理科学,2006,14(2):39-44
[3]Martin D. Early warning of bank failure: a logit regression approach[J].Journal of Banking and Finance,1977,1(11):249-276
[4]Sueyoshi T. Mixed integer programming approach of extended DEA-discriminant analysis[J].European Journal of Operational Research ,2004,152(1):45-55
[5]Friedman J H,Turkey J W. A projection pursuit algorithm for exploratory data analysis[J].IEEE Transactions on computer,1974,23(9):881-890
[6]Huber P J. projection pursuit (with discussions) [J].The Annals of Statistics,1985,13(2):435-475
[7]王春峰 李汶华:商业银行信用风险评估:投影寻踪判别分析模型[J].管理工程学报,2000,14(2):43-46
[8]赵晓翠 王来生:基于投影寻踪和支持向量机的模式识别方法[J].计算机应用研究,2007,24(2):86-88
[9]付 强 赵小勇:投影寻踪模型原理及其应用[M].北京:科学出版社,2006.1-119
[10]金菊良 丁 晶:水资源系统工程[M].成都:四川科学技术出版社,2002.37-179
[11]鄢烈祥 麻德贤:过程系统寻优新方法-非线性映射主轴分析法[J].系统工程理论与实践,1999,19(9):79-84