论文部分内容阅读
摘 要 1:1样本配比的财务预警模型的系数和概率估计是有偏的,全市場公司的样本数据又高度不平衡.为克服两类样本不平衡给预警模型带来的影响,引入公司误判代价分析,以ST公司误判代价为权重,通过最小化加权的对数似然损失函数,建立误判代价加权的Logistic回归财务预警模型.实证结果表明,误判代价加权的Logistic回归模型具有较好的预警效果,2007年的训练样本上正常公司和ST公司的识别率为89.43%和93.33%,2008年测试样本上两类公司的识别率分别为:92.1%和95.83%.
关键词 数理经济学;财务预警模型;加权Logistic回归;不平衡数据
中图分类号 F061.5文献标识码 A
Abstract The estimated coefficients and probability are biased in Prediction of Financial Distress with traditional 1:1 sample ratio,and the sample data based on the whole market is highly imbalanced.So in order to overcome the influence of imbalance,the misclassification cost of two kinds of companies was analyzed.Taking misclassification cost of ST Company as the weight,minimizing the weighted log likelihood loss function,a weighted Logistic regression model was used in Prediction of Financial Distress.The empirical results show that the weighted Logistic regression model has perfect effect.The recognition rate between normal financial company and ST company on training data in 2007 year was 89.43% and 93.33%,respectively;while the recognition rate of the two types of company is 92.1% and 95.83%,respectively,in the independent test sample in 2008 year.
Key words mathematical economics;financial distress prediction;weighted logistics regression;imbalanced data
1 引 言
企业财务预警实证研究方法一般有如下几种:单变量模型(如一元判别模型),多变量模型(如多元线性判别模型、多元逻辑回归模型、多元概率比回归模型、基于现代机器学习的判别模型),逐步深入的研究,取得了许多典型的成果.
早在上世纪三十年代,国外就开始了企业财务预警研究.Fitzpatrick P J(1932)[1]首次以财务比率预测财务困境.Beaver W(1966)[2]也利用单变量分析法建立财务预警模型,发现可以提前至少5年对公司财务困境进行预测.针对单变量分析的局限性,Altman E(1968)[3]提出了著名的多元Z值判定模型(称为Z-score模型),为客观地评价企业财务状况开创了一种新思路.为了克服线性判别模型对预测指标有着严格的联合正态分布要求这一局限性,Martin D(1977)[4]引入Logistic回归分析法建立企业财务预警模型,Ohlson J A(1980)[5]尝试试用Probit模型来建立财务危机预警模型.上世纪九十年代以后,由于人工智能技术的发展,神经网络开始被引入财务预警研究当中,被证实有一定的预测能力,比如Odour M D(2012)[6]等.吴世农(1986)[7]在我国首次撰文介绍企业破产的财务分析指标与预测模型之后相关的研究报告.陈静(1999)[8]借鉴了Altman E的财务困境模型,利用单变量分析和判别分析的fishin准则得出判断函数,标志着国内研究财务困境问题的开始.张玲(2000)[9]选取了沪深两市14个行业120家上市公司为样本,从15个财务比率指标中选择了4个指标构建预警模型,研究发现模型具有超前4年的预测结果.吴世农(2001)[10]分别利用多元判别分析、线性概率分析和Logistic回归分析进行建模预测,研究结果表明Logistic预测模型效果最好.杨宝安(2001)[11]针对判别分析存在的问题,引入人工神经网络构建模型.各种人工智能包括机器学习的方法陆续引入到相关研究当中,如李秉祥提出的组合预警模型;郭德仁(2009)[12]构建了基于模糊聚类和模糊模式识别的模型;蒋盛益(2010)[13]基于机器学习理论,探讨了贝叶斯网络、决策树、基于规则分类、最近邻分类、多层感应机、BP神经网络和Logistic回归在企业财务预警研究中的实证效果.尽管财务预警研究取得了长足发展,吴星泽(2011)[14]总结分析研究现状,提出以往研究在研究框架上也存在一定的问题.
第2期何胜美等:基于误判代价加权的Logistic财务预警模型研究
首先,在样本的选择上存在一定问题.市场上正常公司样本和财务不正常公司样本比例往往是很高的,以2017年5月沪深上市公司为例,共有3241家非ST公司(财务正常),而ST和*ST公司只有74家,正常公司和陷入财务困境公司比例约为43:1.但过往大部分研究样本采用1:1样本配对,选择样本时,先选定好财务失败的公司做为负类样本,然后根据一定规则,从财务正常的公司中按照1:1比例选择正常公司配对,形成总的研究样本.这种样本的选择(尤其是正常公司样本的选择)是非随机的,它会导致模型系数和概率的估计有偏(Zmijewski M E,1984)[15],吴星泽[14]从Bayes定理证明了这一点,彭大庆(2006)[16]的实证研究也说明这个问题.但如果对于正常公司的选择采用随机抽样,那么建立起来的预警模型效果将受到随机抽样的影响,这样得到的预警模型不稳定,结果也不可靠(何胜美等,2014)[17].所以单纯1:1样本配对建立财务预警模型不太可行.如果采用全样本建模,那么样本比例不均衡(当前沪深上市公司约为43:1).对于高度不平衡的数据集的分类,训练的识别模型将严重偏向样本数量多的类,从而导致数量少的类的识别效果偏低(Hai-bo H,2009)[18].何胜美等(2014)[17]研究表明,不加处理采用全样本建立的财务预警模型几乎将所有的ST公司误判成了正常公司,同时能保持很高的总体识别率.无论对于企业管理者还是投资者,都是不可接受的.针对这问题,SMOTO和Bagging算法引入到财务预警研究当中,一定程度上改进了上述问题. 其次,以往大部分研究中犯错的代价认为是相等的.財务预警模型中,误判错误有两种:一种是将财务危机的公司误判成财务正常公司,另一种是将财务正常公司错判成财务危机的公司出现虚警.建立财务预警模型的目的是前瞻性的识别财务危机公司.张守川等(2012)[19]认为对投资者而言,误判意味着识别失败而导致投资损失,而虚警只是可能错失投资机会;对企业管理者而言,误判可能会导致面对可能的财务危机而熟视无睹,错失采取相应措施的机会;虚警则会给管理者警示,去分析自己的财务状况和公司经营状况.所以,无论投资者还是管理者,将财务危机公司误判为正常公司带来的损失都更大.因此误判和虚警的代价是不相等的,但当前研究中还没有人对财务预警模型中的犯错的代价进行分析和探讨.
基于Logistic回归模型在我国2007和2008年的全体上市公司财务数据基础上讨论上市公司财务预警问题.样本公司中两类公司比例差异很大,为克服这种样本的不平衡导致的模型偏差,引入公司误判和虚警的代价分析,以ST公司误判的代价为权重,通过最小化加权的样本对数似然损失函数,建立基于误判代价加权的Logistic财务危机预警模型;然后利用沪深上市公司数据进行实证研究.
2 基于误判代价加权的Logistic回归模型
2.1 财务预警框架下的Logistic回归模型
2.2 基于误判代价加权的Logistic回归模型
极小化J1(β)暗含所有样本误判和虚警代价均相等.然而,正如前文所述,就财务预警目的而言,预警过程中第一种错误带来的误判损失比第二种错误更大,因此在参数估计过程中根据代价不同对两类样本区别对待是合理的.假设一个正常公司发出虚警的代价为1,而将ST公司误判的代价为c(通常c
关键词 数理经济学;财务预警模型;加权Logistic回归;不平衡数据
中图分类号 F061.5文献标识码 A
Abstract The estimated coefficients and probability are biased in Prediction of Financial Distress with traditional 1:1 sample ratio,and the sample data based on the whole market is highly imbalanced.So in order to overcome the influence of imbalance,the misclassification cost of two kinds of companies was analyzed.Taking misclassification cost of ST Company as the weight,minimizing the weighted log likelihood loss function,a weighted Logistic regression model was used in Prediction of Financial Distress.The empirical results show that the weighted Logistic regression model has perfect effect.The recognition rate between normal financial company and ST company on training data in 2007 year was 89.43% and 93.33%,respectively;while the recognition rate of the two types of company is 92.1% and 95.83%,respectively,in the independent test sample in 2008 year.
Key words mathematical economics;financial distress prediction;weighted logistics regression;imbalanced data
1 引 言
企业财务预警实证研究方法一般有如下几种:单变量模型(如一元判别模型),多变量模型(如多元线性判别模型、多元逻辑回归模型、多元概率比回归模型、基于现代机器学习的判别模型),逐步深入的研究,取得了许多典型的成果.
早在上世纪三十年代,国外就开始了企业财务预警研究.Fitzpatrick P J(1932)[1]首次以财务比率预测财务困境.Beaver W(1966)[2]也利用单变量分析法建立财务预警模型,发现可以提前至少5年对公司财务困境进行预测.针对单变量分析的局限性,Altman E(1968)[3]提出了著名的多元Z值判定模型(称为Z-score模型),为客观地评价企业财务状况开创了一种新思路.为了克服线性判别模型对预测指标有着严格的联合正态分布要求这一局限性,Martin D(1977)[4]引入Logistic回归分析法建立企业财务预警模型,Ohlson J A(1980)[5]尝试试用Probit模型来建立财务危机预警模型.上世纪九十年代以后,由于人工智能技术的发展,神经网络开始被引入财务预警研究当中,被证实有一定的预测能力,比如Odour M D(2012)[6]等.吴世农(1986)[7]在我国首次撰文介绍企业破产的财务分析指标与预测模型之后相关的研究报告.陈静(1999)[8]借鉴了Altman E的财务困境模型,利用单变量分析和判别分析的fishin准则得出判断函数,标志着国内研究财务困境问题的开始.张玲(2000)[9]选取了沪深两市14个行业120家上市公司为样本,从15个财务比率指标中选择了4个指标构建预警模型,研究发现模型具有超前4年的预测结果.吴世农(2001)[10]分别利用多元判别分析、线性概率分析和Logistic回归分析进行建模预测,研究结果表明Logistic预测模型效果最好.杨宝安(2001)[11]针对判别分析存在的问题,引入人工神经网络构建模型.各种人工智能包括机器学习的方法陆续引入到相关研究当中,如李秉祥提出的组合预警模型;郭德仁(2009)[12]构建了基于模糊聚类和模糊模式识别的模型;蒋盛益(2010)[13]基于机器学习理论,探讨了贝叶斯网络、决策树、基于规则分类、最近邻分类、多层感应机、BP神经网络和Logistic回归在企业财务预警研究中的实证效果.尽管财务预警研究取得了长足发展,吴星泽(2011)[14]总结分析研究现状,提出以往研究在研究框架上也存在一定的问题.
第2期何胜美等:基于误判代价加权的Logistic财务预警模型研究
首先,在样本的选择上存在一定问题.市场上正常公司样本和财务不正常公司样本比例往往是很高的,以2017年5月沪深上市公司为例,共有3241家非ST公司(财务正常),而ST和*ST公司只有74家,正常公司和陷入财务困境公司比例约为43:1.但过往大部分研究样本采用1:1样本配对,选择样本时,先选定好财务失败的公司做为负类样本,然后根据一定规则,从财务正常的公司中按照1:1比例选择正常公司配对,形成总的研究样本.这种样本的选择(尤其是正常公司样本的选择)是非随机的,它会导致模型系数和概率的估计有偏(Zmijewski M E,1984)[15],吴星泽[14]从Bayes定理证明了这一点,彭大庆(2006)[16]的实证研究也说明这个问题.但如果对于正常公司的选择采用随机抽样,那么建立起来的预警模型效果将受到随机抽样的影响,这样得到的预警模型不稳定,结果也不可靠(何胜美等,2014)[17].所以单纯1:1样本配对建立财务预警模型不太可行.如果采用全样本建模,那么样本比例不均衡(当前沪深上市公司约为43:1).对于高度不平衡的数据集的分类,训练的识别模型将严重偏向样本数量多的类,从而导致数量少的类的识别效果偏低(Hai-bo H,2009)[18].何胜美等(2014)[17]研究表明,不加处理采用全样本建立的财务预警模型几乎将所有的ST公司误判成了正常公司,同时能保持很高的总体识别率.无论对于企业管理者还是投资者,都是不可接受的.针对这问题,SMOTO和Bagging算法引入到财务预警研究当中,一定程度上改进了上述问题. 其次,以往大部分研究中犯错的代价认为是相等的.財务预警模型中,误判错误有两种:一种是将财务危机的公司误判成财务正常公司,另一种是将财务正常公司错判成财务危机的公司出现虚警.建立财务预警模型的目的是前瞻性的识别财务危机公司.张守川等(2012)[19]认为对投资者而言,误判意味着识别失败而导致投资损失,而虚警只是可能错失投资机会;对企业管理者而言,误判可能会导致面对可能的财务危机而熟视无睹,错失采取相应措施的机会;虚警则会给管理者警示,去分析自己的财务状况和公司经营状况.所以,无论投资者还是管理者,将财务危机公司误判为正常公司带来的损失都更大.因此误判和虚警的代价是不相等的,但当前研究中还没有人对财务预警模型中的犯错的代价进行分析和探讨.
基于Logistic回归模型在我国2007和2008年的全体上市公司财务数据基础上讨论上市公司财务预警问题.样本公司中两类公司比例差异很大,为克服这种样本的不平衡导致的模型偏差,引入公司误判和虚警的代价分析,以ST公司误判的代价为权重,通过最小化加权的样本对数似然损失函数,建立基于误判代价加权的Logistic财务危机预警模型;然后利用沪深上市公司数据进行实证研究.
2 基于误判代价加权的Logistic回归模型
2.1 财务预警框架下的Logistic回归模型
2.2 基于误判代价加权的Logistic回归模型
极小化J1(β)暗含所有样本误判和虚警代价均相等.然而,正如前文所述,就财务预警目的而言,预警过程中第一种错误带来的误判损失比第二种错误更大,因此在参数估计过程中根据代价不同对两类样本区别对待是合理的.假设一个正常公司发出虚警的代价为1,而将ST公司误判的代价为c(通常c