论文部分内容阅读
本文提出一种基于面板数据的实证回测框架,和涵盖一致性、稳定性和时效性的,以ROC(Receiver Operating Characteristic)为评估指标的信用风险度量质量评估体系。基于回测框架和评估体系,以2000年至2019年我国A股上市公司作为研究样本,设置1年和2年两种预测期限,使用“ST”和“违约”两种信用风险标签,比较KMV模型、数据挖掘技术和信用评级三者的信用风险度量质量。本文全面论述了“ST”和“违约”的异同,创造性地运用“ST”预测“违约”:以数量较为充足的ST样本训练机器学习模型,预测数量相对匮乏的违约样本,解决了目前违约样本不足且时间上聚集而难以建模的问题。研究结果表明,基于数据挖掘技术,利用“ST”样本训练得到的模型的违约预测效果显著优于信用评级,具备可行性。在KMV模型实证研究中,本文探索不同输入变量和违约距离(DD)形式对于ST预测效果的影响,发现以违约点为短期负债、波动率为静态波动率、以个股超额收益率作为资产价值预期增长率估计的KMV-Merton模型的预测效果好于其他。并且,KMV模型违约距离从横截面数据看(逐个年份看)具有较好的准确度和稳定性,而基于面板数据的准确度下降明显;其中的原因是,违约距离随时间变化过于剧烈,而以超额收益率作为资产预期增长率估计具有“顺周期性”,进一步加剧了违约距离的波动,这使得违约距离跨时间可比性较差。而对于违约预测,结果表明KMV模型ROC在0.5附近,无法识别出“高市值、高杠杆、高增长、低股权波动率”的违约样本。在基于数据挖掘技术的实证研究中,本文还探究了数据预处理、特征选择、模型选择对模型预测效果的影响。数据预处理方面,对数据进行离散化(分箱)处理对模型提升作用大于模型的选择;特征选择方面,基于IV值的特征筛选方法与“专家特征”各有优势;市场数据能够提供财务数据以外的信用风险信息从而提高模型性能,其中股权价值和超额收益发挥主要作用,KMV违约距离贡献并不明显,并且,这种提升随预测期限增加而减弱。模型选择方面,逻辑回归和基于线性核函数的SVM模型总体表现好于随机森林模型,当预测期限为1年时,三者差距并不大。