论文部分内容阅读
在多个被审计数据源中可能含有相似的内容,这些相似内容在某些情况下也许会成为审计问题的突破口。例如,从不同来源采集到的两个被审计数据中,本不应当出现某些相似的内容,那么通过查找得到的相似数据就可以成为审计线索,而通过相似检测技术可以有效地发现这类数据。目前国内外对数据相似检测技术的研究多用来查找数据源中的相似重复数据,并对这类数据进行清理,从而提高数据的质量,而对于将该技术结合审计实践的研究与应用还比较少。本文首先搜集并阅读与选题相关的文献,包括审计信息化、相似检测技术和电子数据审计等方面,目的在于分析在电子数据审计中应用相似检测技术的意义和作用。接着,本文第二章介绍了开发相似检测系统所需的主要理论与技术,其中包括距离测度方法、中文分词方法和相似度算法。本文的第三章详细介绍了相似检测系统的三个主要功能模块。第一个模块为数据采集,负责将被审计单位的数据传递到服务器。第二个模块为数据库数据的相似检测,通过运用编辑距离算法计算字符型数据的相似度,实现了表内相似数据的查询和表间数据的相似项匹配。第三个模块是Word文档的相似检测,该模块主要实现了两个功能:第一个功能是对两个文档进行简单的相似检测,包括计算其相似度并显示相似内容,其中运用了中文分词方法和Jaccard相似度计算方法;第二个功能中建立了审计文档库,以便于审计组内的文档共享,并实现文库内容的关键词检索和文档匹配。为了检验相似检测系统中功能的实用性,本文第四章选取了审计署2016年对某省贯彻落实国家重大政策措施情况审计中的三个案例,分别应用于上述的三个功能:表间数据匹配、文档间相似检测和关键词检索。在案例中,本文将审计人员的工作方法与系统功能进行效果上和效率上的对比,从而验证了相似检测系统不仅可以提高审计人员的工作效率,也能够有助于审计工作中发现审计线索。最后,本文总结了该研究过程和结果中的创新点和不足之处,并提出了未来的研究方向。本文的研究在理论上实现了相似检测技术和电子数据审计方法的结合,丰富了运用计算机技术辅助审计工作的方法;在实践上有助于审计工作中高效地发现数据源中的相似重复内容,进而可能获得审计线索。