论文部分内容阅读
财务舞弊问题的屡屡发生严重阻碍了我国资本市场的长期稳定发展。信息不对称使得外部信息使用者很难察觉到这些蛛丝马迹,这仿佛为识别财务舞弊蒙上了一层“黑面纱”。随着互联网的兴起,大数据逐渐走进并且融入到了社会生活的各个领域,数据分析正成为解读企业的良方。本文立足于财务舞弊的识别研究,借助数据挖掘这一新兴数据分析技术来识别财务舞弊行为,其识别效果和效率均十分可观。这为识别财务舞弊研究问题提供了新的思路与方法,同时也有助于提高有关信息使用者的舞弊识别能力,促进会计信息披露的规范。 本文通过回顾财务舞弊识别研究的成果,结合财务舞弊相关理论和数据挖掘技术理论,厘清了研究思路。其后,以财务舞弊GONE理论为框架,选取贪婪、机会、需要和暴露四个维度,共11个舞弊影响因子,涵盖财务信息、公司治理和外部环境三方面对财务舞弊的影响。然后,选取2009年至2015年受到我国证监会和沪深交易所公开谴责、公开批评和公开处罚的上市公司为舞弊公司样本;按照公司规模、行业选取无舞弊公司样本进行1:1配对,共420家上市公司。在进行数据挖掘训练时,使用resample函数将样本规模扩大一倍,继而分别采用决策树、Bagging和随机森林三种分类器进行实证检验。经实证分析后发现,随机森林算法识别财务舞弊行为的效果最好,其识别率高达97.4%,较以往研究者的实证效果更有优越性。同时分析结果表明,财务指标较非财务指标在财务舞弊的识别上更为重要。可能的解释是,传统财务指标可以直观反映企业的经营状况,而公司治理和外部环境等非财务指标由于其主观性和不可测量性导致其识别效果较弱,通常只起到对财务指标的补充作用。 本文的创新点在于,使用具有集成效果的分类器(Bagging和随机森林)进行财务舞弊识别研究,相比单一分类器(决策树)的财务舞弊识别效果更为优秀,这点得到了实证结果的支持。其次,借鉴舞弊GONE理论,构建了一套多维度、多指标、综合性的财务舞弊识别指标体系,用于指导数据挖掘分类器模型的建立。本文最大的不足在于数据挖掘技术本身的局限性,虽然本文的模型得到了较好的分类识别效果,但却无法具体解释每一个变量对模型的识别机理,无法明确说明因果关系。其次,输入模型的变量选择也仍存在改进空间。