挖掘和分析文本来识别公司财务欺诈:针对财务报表和社交媒体的分析

来源 :中国科学技术大学 | 被引量 : 1次 | 上传用户:fiscar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融欺诈是一个严重的世界性问题。金融欺诈被定义为“一种违反法律、规章和政策来获取未经授权的财务收益的故意行为”。自21世纪起,许多影响深远的金融欺诈案例如安然、世界通信公司、泰科、南方医疗等公司给股东带来了巨大的经济损失。安然的欺诈丑闻导致股东损失740亿美元,世界通信公司的欺诈导致3万人失去工作以及投资人损失1800亿美元。除了财务损失,金融欺诈对世界经济带来了不可估量的重创,也严重打击了投资人对股市公正的信心。更为严重的是,美国公司金融欺诈的案例在过去十年间还有明显上升。不仅仅是美国公司,中国公司也出现同样的问题。随着中国金融改革的不断深化,许多总部在中国大陆的公司选择在海外上市。这些公司被统称为中概股。从2010年开始,许多中概股公司被一些市场研究公司(比如浑水公司和香橼研究)做空。被做空的公司有东方纸业、绿诺国际、多元环球水务、中国高速传媒等,这些公司先是股票大跌,紧接着被证监会调查,最后纷纷退市。许多投资人损失资金也对所有的中概股丧失信心。为了避免巨大的损失,识别公司财务欺诈十分有必要,才能保证金融市场公平、开放和透明。美国联邦调查局调查的金融欺诈类型包括公司欺诈、证券商品欺诈、医疗欺诈、金融机构欺诈、抵押欺诈等。鉴于美国和中概股欺诈公司带来的惨痛教训,公司欺诈识别引来多方关注。在1997年至2008年期间发表的49篇有关金融欺诈识别的文章中,34. 75%研究的是关于公司欺诈的,这是本研究也以公司欺诈作为研究目标的原因之一。此外,公司欺诈可以通过财务报表反映出来,因而有充足的数据,这是本文研究公司欺诈的原因之二。现有研究中公司欺诈被划分为四个子类,包括股东欺诈、政府欺诈、财报欺诈和监管违规。由于公司欺诈更易于发生在高管层面,而且高管欺诈的影响力更大,因而本研究采用的公司欺诈定义是公司管理层通过发布误导性财务报表使投资人和债权人遭受损失的有意欺诈行为。该定义中有两点重要信息,一是发生在管理层的公司欺诈是本研究的对象,二是管理层的欺诈行为是通过发布误导性的财报。理解公司欺诈的商业过程有助于我们提出更好的欺诈识别方法。在一开始,当公司管理层面临销售困境带来的市场压力或是个人原因而挪用资产时,往往会高估公司的资产、销量和收益,或是低估负债、支出和各种损失,并且在财报中披露不合实际的增长机会。当看到这些被过度美化的财务数据时,华尔街的分析师以及公众投资人将提高对这家公司的期望和收益预测。接着为了满足市场的期望和预测,管理层又不得不制造下一季度或是下一年度的虚假财报。这就是公司欺诈的闭环商业过程。监管者、审计员、学术界研究人员都试图减少公司欺诈。监管者所采取的典型措施是美国注册公共会计师协会颁布的SAS 56号和99号文件。其中SAS 56号文件提出了一套审计分析步骤,包括将所记录科目、由科目计算的比率与审计师的期望值进行对比。SAS 99号文件为审计员制定了识别公司文件中虚假陈述的标准。审计从业人员则通过对财务数据进行整体回顾、对库存和管理者评估进行独立的观察,然后通过与第三方人士或机构对比确认再做出判断。研究人员是通过设计出不同的财务指标来识别公司欺诈。现有文献中依据不同的方法提出了不同的指标体系,然而识别结果差别很大。现有研究非常依赖于对财务报表中的财务数据的统计分析从而识别公司欺诈行为。这些欺诈识别方法有一些不足之处。首先,现有研究过度依赖数值型财务数据。如果管理者故意隐瞒或是会计作假,那么存在欺诈的数据就很难和真实数据区分开。其次,现在的公司审查过度依赖于审计师和监管者。由于审计师和监管者精力和资源有限,导致公司欺诈从发生到被识别出往往有时间滞后。并且近年越来越多的金融欺诈案件和不断更新的欺诈方式也意味着现有金融欺诈识别和预防机制存在无效性。因此,本研究希望提出新的方法来帮助研究人员和财务专家更好的识别金融欺诈。鉴于财务报表中大部分的内容是文本,是对数值指标的解释和说明,研究人员逐渐利用这些被忽视的文本数据来更好的理解财务欺诈的机制。现有研究人员通过从财报的文字中提取语言学特征,并把欺诈性财报的识别转化成文本分类问题。本文认为利用文本挖掘技术来识别财务欺诈的研究依然处于早期阶段,现有提取的语言学特征还有许多问题。下面就现有研究的不足之处提出相应的研究问题。(1)从财报的文本中提取的语言学特征受限于自然语言的复杂性和模糊性。由于这些语言学特征的提取需要事先定义,因而不能提取文本的某些潜在特征。另外,现有的语言学特征多是词频统计,词与词之间的依赖关系并没有被考虑。因此,本文的第一个研究问题是如何自动提取财报中的语言学特征,并且将词的依赖关系提取出来。(2)现有研究基于不同的语言学和心理学理论从财报的文本中提取了一系列的语言学特征,然而却缺少一套专门用于财报文本分析和特征提取的指南。因此,本文的第二个研究问题就是如何设计一个系统的理论性的文本分析框架来指导财务欺诈的识别。(3)现有公司欺诈识别文献都一成不变的使用财报中的数值和文本来做识别,然而财报中的内容本质上都反映过去的信息,并且仅仅看财报无法知道投资人对公司的看法。鉴于金融社交媒体平台上有大量关于公司财务和运营状况的讨论和交流,本文探索金融社交媒体的内容是否能用来识别公司欺诈,那么如何通过分析非结构化的社交媒体内容来识别财务欺诈是本文要解决的第三个问题。针对这三大研究问题,本文对应设计了三个研究。研究一建立一个集成的语言模型来识别财务报表中的欺诈性语言。首先,统计语言模型通常被用来估计一段文本出现的概率,在本文中这个方法被用来识别财报中欺诈性语言的策略性使用。统计语言模型比现有的基于语言学特征的方法至少在以下两点有优势。一是不需要提前定义特征,这往往耗时耗力;二是统计语言模型能自动建模自然语言中词汇的依赖关系。然而统计语言模型本身的一个不足之处是无法获取一长段文本之间的关联信息。为了克服这个问题,本文为统计语言模型引入一种能够计算文档相似性的潜在语义分析方法。该潜在语义分析方法能够提取语义特征从而将欺诈样本和非欺诈样本区分开。研究一的理论贡献在于提出了一个集成语言模型来识别财报中的欺诈性语言。通过集成潜在语义方法,本文克服了统计语言模型不能获取长跨度文字信息的缺点,而且又使得统计语言模型具备提取语义特征的能力,同时有着两个方法的优点。通过对海外上市的中国公司数据分析发现,本文新提出的集成语言模型对财务欺诈识别准确率比两个方法都高。研究二基于系统性功能语言理论开发了一套用来识别财报中管理层欺诈性语言的文本分析框架。系统性功能语言理论指出语言是带有目的性的,能够通过措辞为语言使用者达到一定目的。那么利用这套理论反过来有助于我们理解欺诈性消息中的策略性语言使用。该理论有三个功能模块,概念功能、人际功能和语篇功能。在该研究中这三个功能模块被分解为七种信息类型,即话题、意见、情感、情态、人称代词、写作风格、题材。同时,该文本分析框架整合了潜在狄利克雷分布模型、计算语言学、词频-逆文档频率方法,可以为所有信息类型提取词级以及文档级的特征。所有的特征都被用作一个线性支持向量机分类器的输入。通过对1610个美国上市公司年报样本的欺诈风险评估,该分析框架在十折交叉验证下的平均预测准确率达82. 36%,比采用金融指标的计算方法效果更好。研究二的理论贡献在于将系统性功能语言理论引入到财务欺诈识别领域,并且设计了一套用于欺诈识别的严格的特征选择过程,这也是文献中首次提出的系统性的特征集。本文对财务欺诈识别研究提了七类构念,即话题、意见、情感、情态、人称代词、写作风格、题材。另外,本文基于潜在狄利克雷分布模型、计算语言学、词频-逆文档频率方法提出了一个新的信息系统工具来识别财务欺诈。研究三首次利用金融社交平台上的大量用户生成的内容来识别公司财务欺诈。金融社交媒体平台上有大量的知识贡献者和信息分享者,他们产生大量的关于公司财务和运营状况的讨论和交流。鉴于社交媒体信息是及时的、动态的、交互的并且快速更新的,本文认为社交媒体的这些特点将极大的缩减欺诈识别滞后的问题。以网秦移动(一家中国的手机安全公司)为例,浑水公司(一家做空公司)在2013年10月24日发布了针对网秦移动的一份调研报告,认为该公司是彻头彻尾的欺诈。这个报告一发出当晚就导致网秦的股价大跌了 47%。然而有人发现早在2013年初,即在网秦移动被爆有欺诈的前半年,在雪球网(一个中国金融社交媒体平台)上有用户发布了 一系列的分析报告质疑并认为网秦移动有欺诈行为。这个案例说明社交媒体平台上产生的用户分析数据有助于在公司欺诈被正式公开曝光前提前识别公司欺诈行为。鉴于社交媒体平台上都是非结构化的数据,本文基于文本挖掘和信息检索的理论和方法,提出一个能够把社交媒体平台上非结构化数据解析成单词权重特征、话题特征、情感特征以及社交网络结构特征的新型文本分析框架。研究三从SeekingAlpha这个金融投资平台上获取公司的数据,并设计了两个子研究。首先,本文挑选了 149家欺诈公司和149家非欺诈公司在该平台上的所有数据,包括分析师的报告、新闻报告和公众讨论数据。本文采用支持向量机分类器和十折交叉验证,发现样本分类准确率达64. 66%。这个结果比随机猜测准确率高,在某种程度上说明了社交媒体的内容中包含了一些有助于识别欺诈的潜在特征。接着我们测试社交媒体特征对公司欺诈的提前预测能力。本文仅仅使用64个欺诈公司样本和64个非欺诈公司样本在欺诈曝光之前金融社交平台上的数据,通过支持向量机分类器在十折交叉验证下的样本平均分类准确率达到75. 5%。结果表明社交媒体内容对金融财务欺诈预测有超前效应。同时,本文在支持向量机模型中提出欺诈概率指标,反映一家公司出现财务欺诈的概率。鉴于实际中非欺诈公司的数量要比欺诈公司多,本文在样本集中逐步增加非欺诈公司数量,发现当非欺诈公司数量增加时识别准确率会上升。该分析框架比采用金融指标的计算方法效果更好,也表明社交媒体特征可以作为现有财务欺诈识别方法的一个补充。研究三的理论贡献在于首次将金融社交媒体用于欺诈识别,并将非结构化的社交媒体内容分解为词汇权重特征、话题特征、情感相关特征和社交网络特征,从而将社交媒体内容变成了机器可处理的格式。并且本研究首次验证了金融社交媒体内容对欺诈识别存在提前效应,说明了基于社交媒体的识别方法可以作为现有基于财务指标识别方法的一个有效补充。概括地说,本文开发了三个用于公司财务欺诈识别的信息系统工具。一是用于财务报表文本分类的统计语言方法;二是能够提取用于欺诈识别的有效特征的理论框架;三是可以分解非结构化社交媒体内容用于欺诈识别的分析框架。本文总的创新点在于:(1)现有的上市公司财务欺诈识别方法通常局限于对财务报告中的数值指标进行分析,本文使用自然语言处理技术对财务报告中的文本进行分析并挖掘出有用的指标用于欺诈公司识别;并且首次基于系统性功能语言理论提出了一个最为系统性、全面的专用于公司欺诈识别的指标集;本文提出了新的财报文本分析方法,比现有的基于财务指标的方法准确率高;(2)鉴于社交媒体对欺诈披露的作用越来越明显,本文抓取一主流金融社交媒体平台数据,首次采用文本挖掘技术从非结构化的网络数据中提取结构化的量化指标,并取得很好的识别准确率;并且本文发现金融社交媒体内容对识别欺诈有着领先效应,社交媒体内容可以作为现有基于财务指标识别方法的一个补充。本文的研究成果也具备一定的实践指导意义,当前公司欺诈识别的滞后问题会得到缓解,由公司欺诈丑闻带来的对大规模股东的重大损失以及对金融系统的扰动将得到提前预测和阻止。本研究对于市场监管者、政策制定者、审计师以及投资人有重大帮助。投资人,包括个人、机构投资者和评级机构等,由于无法接触和获取到公司内部信息,往往易受到误导性财报的影响。本研究的预测方法有助于让他们提前掌握所投资的公司的财务风险,做出更好的投资决策,从而保证收益,规避风险。对于审计师来说,本文的方法可自动评估所审计的财报的风险,从而提前杜绝有欺诈嫌疑的报告流向公众。对于市场监管者来说,有效的欺诈识别方法使得他们在投入最小的人力物力基础上能够将精力集中在有欺诈嫌疑的公司上。此外,现有的审计分析标准SAS 56还是三十年前提出的,随着商务智能、大数据、人工智能技术逐步应用于公司审计,也促使这些条例标准做出修订。未来的审计过程应更多的关注对财报中的文本分析以及兼顾公众对公司的看法。
其他文献
近年来,健康中国逐步上升为国家战略,医保建设在经济社会发展中占据着重要的地位。随着医疗信息化的不断普及和推进,医保欺诈也越来越被确认为一种严重的社会问题。医疗滥用
随着经济的不断发展,汽车消费市场变得越来越火热,汽车对于人们来说已不再是触手不可及的奢侈品,而逐步变为人们日常的代步工具,每个家庭都几乎拥有了一辆汽车。但是随着汽车
<正>为确保各级党组织把党建工作放在心上、扛在肩上、抓在手上,今年以来,平度市围绕党建工作"抓什么、怎么抓、怎么评价",在市级、部门、镇街和村(社区)四个层面,研究确定基
目的分析微创连续冲洗在化脓性膝关节炎护理中的作用。方法收集我院2013年7月~2014年7月期间诊治的化脓性膝关节炎患者60例作为研究对象,对所有患者实施微创连续冲洗,分析冲
热电厂在运行过程中会排放大量SO2,从而造成严重的环境污染,因此对SO2的排放进行合理控制成为目前我国热电厂急需解决的重要问题之一。热电厂脱硫过程中吸收塔内浆液PH值控制
<正>2014年,我国新能源汽车产量实现10倍增长,相应电池市场也得到拉动。目前电池行业对发展可重复利用、清洁环保等电池的意见相当统一,但在具体的技术路线选择上有不同的方
<正>他以独特的喜剧艺术表演风格和辛辣的讽刺,尖锐的批判了资本主义社会的罪恶。一生主演过八十多部影片,他喜剧性的表演令人捧腹大笑,但又使人笑后感到泪水的苦味,他用"小
90年代以来,亚洲影视文化在全球化语境下的发展新趋势之一是韩国电的迅速崛起。在一大批风格鲜活,题材新颖.影像丰富的韩国影视佳作中.也不乏一些以女性意识与与视角拍摄和通
<正> 美国著名电影演员达斯汀·霍夫曼演绎过种种不同的角色,如《小巨人》中的百岁印第安人、《窈窕淑男》中喜欢着女装的快活演员、《雨人》中讨人喜欢的孤独症患者……他和
基于当前城市棚户区改造的背景,以某棚户区改造项目为例,开展可行性、必要性研究,通过创新开发模式及项目管理模式,提出一种体现"多方参与、共同受益、大家满意"的共同缔造理