论文部分内容阅读
21世纪以来中国资本市场快速发展,上市公司数目迅速增加。然而伴随着上市公司制度发展,财务欺诈也时有发生。接连曝光的上市公司财务欺诈案件,造假数额如此之大,持续时间如此之长,触目惊心。上市公司财务欺诈直接或间接地导致投资者的收益受到威胁,动摇并挫伤投资者的信任与信心,严重损害证券市场优化资本配置的功能。因此,如何构建有效的上市公司财务欺诈识别模型,研究该问题对参与资本市场的各方都具有重要意义。本文对财务欺诈领域的相关文献进行了系统性总结。首先,本文对财务欺诈成因经典理论进行简要回顾。接着,本文从财务特征与非财务特征角度对财务欺诈识别相关指标进行总结归纳。最后,按统计方法与数据挖掘方法两类方法分别对当前财务欺诈识别模型的研究进展进行回顾。在文献回顾的基础上,本文选取了2007-2013年间因财务欺诈行为被证监会等处罚的161家上市公司作为欺诈样本,并选取与之配对的161家上市公司作为非欺诈样本。同时,基于已有文献本文总结出32项财务指标与11项非财务指标共计43项指标作为初选指标。以此为基础使用基于信息增益的特征选择方法本文最终得到了如其他应收款占流动资产比率、每股盈利、监事会会议次数等14项指标。本文主要使用数据挖掘算法中的分类算法构建财务欺诈识别模型。首先,分别使用C4.5、Bayesnet、libsvm三种单分类器分类算法,实验结果表明:Bayesnet具有最高的总体精度70.81%,但第一类误判率达到了39.75%;C4.5总体精度略低为68.94%,但是在两类误判率上相对均衡; libsvm算法总体精度最低,但其具有最低的第一类误判率32.3%;三种单分类器并不存在明显的优劣。随后,本文使用AdaBoost算法与随机森林算法两种集成学习算法构建模型,发现随机森林算法能够获得最佳的分类效果,各项指标均优于AdaBoost算法与三种单分类器,总体预测精度达到73.6%,一类误判率为27.33%,F-measure为0.736,AUC值达到0.799。在此基础之上,本文提出需要考虑到将欺诈公司误判成非欺诈公司代价更严重这一问题,进而引入MetaCost代价敏感性算法,基于随机森林的MetaCost算法使得第一类误判率下降到14.6%,而总体精度维持在70.19%,从而实现了在保证一定准确率的同时尽可能降低第一类误判这一目标。本研究的贡献在于:(1)本文通过对已有文献归纳总结出32项财务指标与11项非财务指标共计43项指标,并以此基于信息增益的特征选择方法选取财务欺诈识别的相关指标,结果发现其他应收款占流动资产比率、每股盈利、监事会会议次数、存货周转率、资产负债率、经营杠杆系数、速动比率、流动比率、流动资产比率、主营业利润占比、净利润增长率、每股净资产、营业收入净利润率、资产报酬率等共计14项指标对中国上市公司财务欺诈识别具有指导作用。(2)考虑到将财务欺诈公司误分成非欺诈公司与将非财务欺诈公司误分成欺诈公司两类错误所造成的损失并不一致,本文将MetaCost这一代价敏感性学习引入到财务欺诈识别领域,基于随机森林的MetaCost算法使财务欺诈公司的识别率达到了85.4%,对财务欺诈识别问题取得了不错的效果。