论文部分内容阅读
进入21世纪以来,世界各国的上市公司数量都在飞速增长。以A股为例,从2002年到2012年这十年间,A股的上市公司数量从1138家增长到2472家,翻了一倍。在这些成功上市或正准备上市的公司中,大多数都是希望通过上市的方式来获得更多的社会资源并最终以此提高自己在整个市场中的竞争力,但是也有部分公司因为各种各样的动机通过财务舞弊来谋取一些不正当的利益。这部分上市公司的财务舞弊行为对证券市场的各个参与者都有着重大影响。对于投资者来说,如果根据存在舞弊迹象的财务报告对相关上市公司做出了错误的投资,势必会造成损失。对于监管层来说,保证公开透明的证券市场环境是其本职工作,若对舞弊行为不加以制止,则会降低证券市场的资源配置效率甚至会造成证券市场的混乱。对于其他相关者,虚假的财务报告会使得利益相关者无法准确清晰的了解公司实际经营状况进而无法做出正确决策。正因如此,研究出能够有效识别上市公司财务舞弊行为的方法就变得很有实际意义。本文在对上市公司财务舞弊相关理论深入理解的基础上,综合利用数据挖掘技术对2000-2008年的有舞弊迹象的上市公司及相应的控制样本建立模型。本文的研究成果体现在两个方面,一方面是通过特征选择结果得出对上市公司舞弊行为影响最大的几个指标,从而根据这几大指标对如何防止舞弊提出相应的建议;另一方面是通过对备选模型的建模效果进行比较,找出最适合这一问题的模型。论文的思路如下:首先,阐述财务舞弊的概念和动因、数据挖掘的产生背景等相关理论,并对文章所使用的数据挖掘工具R语言进行了介绍。然后,结合财务舞弊动因理论,初选了22个与财务舞弊行为相关的指标。通过Relief和信息增益这两种特征选择算法对2000-2008年的舞弊公司与控制样本进行指标筛选。综合两种特征选择算法的结果,对财务舞弊行为影响最大的几个指标分别为资产负债率、资产报酬率、应收账款周转率、销售期间费用率和流动资产周转率。其次,经过Relief和信息增益两种特征选择算法筛选后的指标组合与未经指标筛选的原22个指标组合总共形成了三个数据集。将这三个数据集与最近邻、朴素贝叶斯和随机森林这3种具有代表性的数据挖掘算法相结合建立模型。在多种评价方法评价之后,发现预测效果最优的为经过信息增益算法筛选后的指标组合与最近邻算法结合的模型。再次,考虑到所得的信息增益与最近邻算法结合的模型在舞弊公司的查全率上依然不尽如人意。将代价敏感学习引入到模型组合中,并提出了一种基于代价敏感学习的随机森林算法。该算法在测试集的舞弊公司查全率上达到89%,大大提高了整个舞弊识别模型的效果。最后,结论部分从经过特征选择选择后的指标和模型应用两方面对全文进行了总结,并对进一步规范我国上市公司的行为给出了一定的建议。