大数据环境下审计取证定位及其方向选择研究

来源 :中国内部审计 | 被引量 : 0次 | 上传用户:junfeng_19860313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]本文通过开展大数据环境下审计取证定位及其方向选择问题研究,旨在尝试为人工智能审计软件设计开发提供新思路,为审计证据定量研究提供新途径,为快速准确获取审计证据探索新方法。
  [关键词]大数据    审计取证    定位    研究
  随着计算机、物联网等技术的应用与普及,网络空间中人、机、物交互、融合产生和获取的数据规模与速度极大提高,由此人类社会步入大数据时代。在这种情况下,如何在海量数据中挖掘到与被审计单位相关的各种有用信息,准确高效地获取审计证据,是审计人员必须面对和思考的问题。由于研究范围仅涉及证据收集切入点选择等问题,因此,通过引入信息生成传递及决策树模型,将重点放在对同一经济活动信息集合中信息链环上的上/下位信息及其相互关联等方面。
  一、上/下位信息概念、成因及其表現形态
  (一)从信息生成规律分析
  审计中审计主体接触到的各种信息,均属于被审计单位相关经济活动的自在信息、自有信息和记录信息集合。其中,自在信息是经济活动以信息方式向外部世界显示的存在和特征,在转化为人类大脑记忆或者机器智能、信息系统信息及通过一定载体记录为文字、符号、电子数据等信息之前,人类意识不到它,更谈不上认识它。这类信息遵循了物质世界物理学定律,在时空上位置指向唯一。如未经计量的用户照明、动力等电能。这种随时间变化处理的信息,是经济活动信息集合中的底层信息(初始信息),是自有信息和记录信息的唯一来源,是认识信息时空序列的客观依据。在数字化时代,这些信息通过交互式应用系统(如Web系统、互联计算机集群——云系统、电子商务系统等)、嵌入式应用系统(如移动电话中使用的软件)、数据采集系统、批处理系统运行顺序输出生成记录信息。如电网企业通过集中抄表终端(或公用变压器采集终端)对低压电力用户电能数据和配电变压器用电量及运行参数的实时采集的数据;通过单片机(主控MCU模块,又称中心单元)将实时采集数据经过处理、控制,输出、上传到采集终端器和主站数据库等数据。这些数据保持了经济活动发展踪迹,体现了被审计事项的时序构成,组成了信息集合原子性(不可分割)、序列化链环。这种同一信息集合中含义相互关联、相互承续,时空位置相邻、生成顺序邻接的信息称为链环信息。
  当链环信息成为审计对象时,审计主体会根据审计假设或命题信息需要,将审计取证切入点或者审计观察点前后相连的链环信息划分为上位信息与下位信息。这种划分是信息含义上的划分,与信息载体独立与否无关。其中,上位信息是下位信息的部分或全部来源,下位信息是上位信息含义的承续,是上位信息这个“因”或“前提”基础上产生的“结果”。审计中,如果上位信息得到查实,那么与其相关联的下位信息自然也就得到查实。反之,下位信息所蕴含的上位信息就不可能得到查实。查证属实、符合经济活动时空次序的上位信息属于确定性信息,而确定性信息是形成审计证据的基础;下位信息与当下审计命题或假设无关,是另一事项信息,相对于特定被审计事项而言,它属于非相关信息,而非相关信息不能作为证据使用。如果下位信息可以证成上位信息,实质上就是错误预设了下位信息已经隐含了上位信息被证明的事实,用需要证明的事实去证明事实自身,其逻辑推理的结果必然是死循环,违背了逻辑规律。
  为便于理解,举例说明。如审计主体在审查某国有企业员工出差费用报销的真实性时,记载这项经济活动的记账凭证以及相关的明细账、总账记录等下位信息就不能作为证明员工出差的证据使用,作为证据使用的只能是员工出差申请单以及车船票、住宿费发票等上位信息。
  从信息生成来源考察所获得的上/下位信息,属于实质性的上/下位信息,它是审计取证定位及方向选择的客观依据。
  (二)从计算机软硬件体系结构中数据流的规律分析
  在现阶段计算机的计算模型下,无论是传统的控制流计算模型即计算机内的数据按指令循序操作模式,还是大数据处理平台上以数据流为核心的数据流计算模型即新型数据驱动方式处理生成的数据,都是按上一个数据计算处理完成,将结果传递给下一个计算单元操作执行这一顺序进行的。各种信息系统在需求描述、设计、开发以及运行中均遵循了经济活动的规律,体现了实际业务流程,具有严密的逻辑性。编程语言也提供了相应的实现语句。例如,C++程序设计语言就提供了多种不同的控制流语句,其中顺序执行的语句规定:第一条语句首先执行,然后是第二条语句,以此类推。现阶段,被审计单位各种交互式应用系统、嵌入式控制系统、批处理系统、数据采集系统、集成式系统等,所采用的计算机语言和解决实际问题的算法,都是按经济活动时序关系或程序设计语言事前确定的方向和有限规则操作步骤设计运行的,反映了被审计单位经济活动数据处理的过程与流程,体现了经济活动信息含义的递归关系,如货币资金=库存现金+银行存款+其他货币资金,总是从“库存现金”到“银行存款”和“其他货币资金”的值计算“货币资金”的值。
  计算机软硬件体系结构中数据流所形成的上/下位信息属于形式上的上/下位信息,它是审计主体认识实质性上/下位信息的结构化、形式化载体。
  (三)从智能化审计软件推理过程分析
  随着人工智能(Artificial Intelligence,AI)技术的快速发展及其在金融、交通、商业、电信、电力等领域的广泛应用,被审计单位生产经营活动过程中人、机、物交互、融合所产生的并在互联网上获得的数据也将越来越多。适应这些大容量、多类型、集中化存储的海量数据的智能化审计软件,也将得到快速开发与应用。智能审计软件所采用的从初始事实(证据)出发,运用知识库中特定领域的基本原理、常识或经验知识,通过推理机逐步推出与审计命题或审计假设相关的审计结论的推理过程,系统性、结构化地体现了应用领域的规律和规则,反映了事实(前提)与结论、上位信息与下位信息的逻辑关系。如对某供电企业配网设备检修工程设计变更(签证)事项的真实性进行审计时,智能化审计软件会依据知识库中有关配网设备检修工程以及设计变更(签证)深/浅层知识,按以下步骤收集审查信息,固化相关证据:第一步,收集审查设计(签证)工程名称及变更卷册号、图号信息;第二步,收集审查设计(签证)事项内容、相关施工措施、纪要或协议信息;第三步,收集审查变更图纸、照片、示意图信息;第四步,收集审查变更工程量信息;第五步收集审查变更费用计算书信息;第六步,收集审查设计变更工程安全质量稽查信息;第七步,收集审查设计变更工程监理、中间(隐蔽)工程验收及工程竣工验收等信息。至于该工程设计变更后续的结算(决算)、财务转资等信息,由于属于上述流程中的下位信息,因而不得作为证明本事项的证据使用。   这种基于实质和形式化上/下位信息,通过智能化审计软件推理过程所确认的上/下位信息,属于审计主体认识上的上/下位信息,是形成审计证据的基础。
  二、不同形态的上/下位信息及其含义递归关系分析
  不同形态的上/下位信息之间既相互联系又互相区别。实质性的上/下位信息真实地反映了被审计单位经济活动实际,是审计证据取舍的依据;而形式上的上/下位信息则是审计主体实施审计搜索、识别的载体与对象;认识上的上/下位信息则是审计主体已经获取到、最终能够形成审计证据的相关信息,这类信息既可以证成审计事项,也可能因为与经济活动不符,导致审计失败。
  信息的形成是从底层向高层聚合的,具有类似树形的结构。从树形结构底层的叶子节点所代表的信息源开始也就是信息生产者如文件或者传感器采集设备生成的数据开始的上位信息,然后通过配准、汇集、关联和计算等信息加工,将底层数据或信息融合成更加抽象的高层信息表示,逐次完成既定融合目标任务,直至根节点,形成某一经济活动的信息集合,在融合的过程中形成自下而上的多叉树形结构,如图1所示。
  多叉树信息递归结构图中,某一经济活动信息集合组成的信息网中,任一独立载体或载体中不同描述段所记载的记录信息或自有信息可视为该信息网中的节点,节点之间的连接弧表示节点对节点的直接影响。叶节点与根节点之间的层次距离为节点深度。结构图中含有的节点和弧越多,表明相应的经济活动信息越复杂。结构图中的信息节点主要由信息节点之间的上位/下位关系连接,这种关系体现了经济活动各信息节点之间信息内容的承继关系,表明信息是从上位节点逐层向下位节点加工融合传递的,上位信息是下位信息的具体呈现。同一事项的下位信息与所有的上位信息输出点,构成下位信息因果网。而因果网具有上位/下位关系的两个信息节点共享同一经济活动部分信息,且下位信息继承了同一经济活动的全部或部分上位信息。叶节点与根节点之间的深度越大即与根节点的层次距离越远,所蕴含的经济活动信息就越具体且数量也越大,而越接近根节点信息量则越少。
  在结构图中,第四层9-18号叶节点(包括6号节点)均为上位节点信息又称初始信息,这些信息均由其他系统(互联网)提供或者本系统生成,在信息集合中最接近经济活动真相,是经济活动信息集合中信息量最大的节点。例如,通过传感器从被审计单位经济活动中采集并发送的各种实时数据;人们通過感觉器官感知后储存、记忆的自有信息或自在信息发生时第一时间转换为录音、录像、文字、数据等的记录信息。第二层、第三层中2、3、4、5、7、8号非叶节点为中间层次节点,相对于1号根节点,他们为上位节点,而与第四层9-18号叶节点相比较又换位为下位节点。
  上位信息和下位信息的分界点是通过人机对话方式输入到智能审计软件中的审计命题或审计假设相对应的信息。在一组描述同一经济活动的信息集合中,上位信息是下位信息生成之前的信息,是形成下位信息的前提信息;而下位信息则是上位信息的后续信息,承续了上位信息的相关含义。之所以上位信息可以成为审计命题或假设的证据而下位信息不能作为证据使用,关键在于下位信息本身就是需要证明的事项,是未经核实(查实)的信息,如果使用未经核实(查实)的信息来推知上位信息,显然违背了人类认知科学和逻辑推理规律。例如,审查某项固定资产计提折旧有无差错时,某计提折旧业务序列中的下位信息为待证计提折旧的事实,而上位信息则是计提折旧的固定资产原值、折旧率等前端业务信息,折旧计提结果所影响的折旧、成本、费用明细账以及总分类账金额的变化则是下位信息。作为证明折旧计提事项真实性的审计证据,应该是引起折旧计提事项发生的原因——上位信息,而不是它的结果——下位信息。
  三、审计取证定位及其方向性选择
  审计取证方向及其定位方法要点是:审计证据取证必须以确定的审计命题或者审计假设所需要收集的被审计事项信息为起点,从上(前)往下(后)或者由下(后)往上(前),通过对相关信息的正向或逆向溯源,收集上位信息,查清被审计事项真相的方法。审计取证定位及方向性选择过程如图2所示。
  
  (一)确定被审计事项所需信息的位置特征
  首先,以某一具体审计命题或审计假设定位切入点(观察点),再根据切入点(观察点)定义上/下位信息。具体做法就是在数据清洗、填充、修改、标准化、类型转化等预处理基础上,对照应用领域规则、业务流程或者范例库中所记载的相同经济活动相似情节、过程等特征,利用计算机检索算法来确定。这一位置特征与同一经济活动信息集中的对被审计事项起证明作用的信息相对应的字符位置相关,通常表现为上、下位两种位置:表示在被审计事项所需信息的上(前)边或者下(后)边。上/下边位置应根据经济活动自在信息的顺序而不是其记录信息或者自有信息所记载(记忆)的顺序来确定。其次,选择被审计事项信息的各种邻接节点字符特征,这样做是为了能细粒度地提取所在上/下位节点信息,它有多种选择方式,如上下两个字符或上/下一个或多个字符以及下一个或多个字符。信息细粒度应根据审计范围或审计目标甚至审计事项的重要程度灵活掌握。
  (二)审计取证方向选择
  被审计事项信息位置特征确定后,接下来就要选择审计取证方向。从信息定义考察,被审计事项上/下位信息都蕴含了信息,但下位信息只是被审计事项原有含义上的新增或重复信息,对于被审计事项来说是明确确定的,不存在未被消除的随机不确定性因素。因被审计事项的下位信息不能作为证明其真实性的证据使用,因而被审计事项的上位信息可独立或者相互印证地证明被审计事项的真实性。也就是说,被审计事项的上位信息,根据证明需要可以成为审计证据。在数据结构中与被审计事项无直接关联的其他节点信息,由于违背了审计证据的相关性规定,也不能成为证据。仍以图1为例,若节点4确定为被审计事项,那么叶节点9、10、11就可以用作节点4的证据节点,而与节点4相关联的上层节点2,则不是节点4的证据节点,除此之外,其他节点也不能收集、固化为节点4的证据。
  (三)审计取证路径选择
  被审计事项自在信息通过一定工具和技术转换为人们能够理解和认识的不同系统性质的自有信息或记录信息后,审计主体可以选择不同的信息获取渠道来查清相关经济活动,但取证路径必须遵循经济活动内在规律。例如,制造企业生产与存货活动发生领料、生产加工、销售产品等业务后,相应地也会产生产品生产、材料(产品)出入库、成本计算等信息,审计主体可以根据构成这些不同业务体系信息的时空次序,选择性地收集相关证据。
  (四)审计取证方法选择
  审计取证关键技术有关键词提取、主题提取、内容抓取等,这里仅从思路上介绍几种方法。
  1.基于范例的推理方法。建立审计范例库,根据关键词索引,从审计范例库中检索出(联想到)与审计中面临问题最类似(相关)的范例,进行差别比较和解答改编,通过联想(或类比),将解决过去问题的经验包括解答和解决过程用于解决当前问题。
  2.中文文本关键短语提取方法。基于统计的关键短语提取,如利用统计方法,用词频TF、词权重TF-IDF以及首位置信息作为统计特征,对候选短语进行评估,提出文本中关键短语;基于混合模型的关键短语抽取,即一种在隐马尔科夫模型和最大熵模型的基础上提出的一种无向图学习模型;利用决策树进行中文文本关键短语的自动抽取;改进的Seg Phrase算法等。
  3.对完整或非完整数据库的查询方法。如PSKYline-join算法、SQL Server数据库T-SQL查询方法、基于Key/Value数据库的查询方法等。
  (作者单位:国家电网有限公司  国网湖北省电力有限公司,邮政编码:430077,电子邮箱:xiejs19621xjs@sina.com)
  主要参考文献
  蔡圆媛.大数据环境下基于知识整合的语义计算技术与应用[M].北京:北京理工大学出版社, 2018
  高济.人工智能高级技术导论[M].北京:高等教育出版社, 2009
  谢亚妮,李响,黄兆坤,钟鸣,雷鸣涛.一种基于Key/Value数据库的查询方法[J].信息化研究, 2019(3)
其他文献
园林景观设计方案表现是景观设计一个重要的组成部分,也是一个至关重要的阶段。表现方式也是多种多样.本文主要总结Auto CAD Photoshop Sketch Up3ds MAx等几种常见绘图软件绘
烟囱作为水泥窑湿法脱硫系统的一部分,对系统的稳定运行以及对污染物的排放都有重要的影响。该文阐述了水泥窑湿法脱硫直排烟囱的工艺设计要点,从材质、烟囱流速、烟囱高度、
目的:探讨个体化护理干预在乳腺癌化疗患者中的应用。方法:给予对照组患者接受常规护理干预措施进行护理,给予研究组患者接受有针对性的个体化护理干预措施,治疗结束后对两组患
目的:探讨自发性乙状结肠穿孔的发病原因、诊断及治疗方法。方法:对笔者所在医院2010年1月-2015年10月收治的39例自发性乙状结肠穿孔患者的临床资料进行回顾性分析。结果:本组39
目的:比较常规疗法和免疫调理疗法在重症肺炎合并呼吸衰竭患者的治疗中的临床应用。方法:总结重症肺炎合并呼吸衰竭患者42例病例资料,按照疗法不同分为两组:常规疗法治疗的对照
本文主要讨论在IBM-PC系列机(含兼容机和长城0502机)上用Pascal语言实现高效的大型软件的几项技术问题,并提出我们的实现方案,希望能向对此问题有兴趣的同志提供某些实用性技
湖南省靠山盘水的地理位置,造就了颇有特色的地方人文习俗,湖湘文化的发展在中国历史上有着重要的地位,富有地方特色的湖南民族音乐更是蕴含着极大的研究价值。湖南民歌是研究湖南民族音乐的重要环节。湖南民歌的文化背景来源于历史发展的时代特色;湖南民歌的旋律建立在湖南方言之上,极为巧妙地结合了湖南方言的腔调与韵律。本文所研究的《思情鬼歌》作为最具代表性的湖南民歌亦是如此。湖南民歌《思情鬼歌》以热恋中的湖南未婚
构建马克思主义中国化话语权,要牢牢把握实现中国梦的伟大目标,立足实践,走中国特色社会主义现代化道路。树立起马克思主义信仰,凝聚中国力量,打破国内外“普世价值”话语垄断,发出
报告基因是分子影像领域基础研究的重要工具,可在活体内无创性监测基因表达。已报道的报告基因很多,但还没有一种很好的具有临床应用价值的报告基因,因此,寻找新型的更完美的
PISLD(PASCALS Interactive Source Lever Debugger)是一个在IBMPC/XT上开发的交互式源级调试工具。利用这个工具,程序的运行可完全由程序员来控制,并且可以通过五个窗口从各