论文部分内容阅读
[摘 要] 本文从数据挖掘系统原型架构出发,结合财务数据的特点分析、财务数据挖掘的一般过程和XBRL技术,设计出一种基于XBRL的财务数据挖掘系统模型,为进一步深入研究财务数据挖掘提供了一种较好的方法。
[关键词] XBRL;财务;数据挖掘
[中图分类号]F232;F275[文献标识码]A[文章编号]1673-0194(2008)18-0012-04
0 引 言
随着信息技术、网络技术和通信技术的发展,企业信息化程度越来越高,越来越多的企业应用了电子商务和ERP系统,在越来越廉价的存储设备配合下,产生了大量的财务数据。但与之相配合的数据分析和知识提取技术的发展却相对缓慢,使得存储的大量财务数据得不到充分利用,不能转化成指导生产的“知识”, 数据挖掘技术正是在这样的背景下产生并迅速兴起的。数据挖掘(Data Mining,DM)也称为数据库知识发现(Knowledge Discovery in Databases,KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的、有用的模式(也叫知识)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识,得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各方面的重视。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析等)的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前未知、有效和实用3个特征。先前未知的信息是指该信息是预先未曾预料到的,挖掘出的信息越是出乎意料,就可能越有价值。
到目前为止,大多数数据挖掘是借用人工智能的各种方法来挖掘数据中存在的知识。但是,正如人工智能本身的发展研究现状一样,数据挖掘还不能很好地理解数据中存在的知识。XML技术的出现,不仅为互联网上的电子数据交换提供了一个标准,而且XML技术从数据的角度提供了一个可以更好地表示数据内容以及数据所代表意义的手段。可扩展商业报告语言(eXtensible Business Reporting Language,XBRL)作为XML在网络财务报告语言上的应用,对财务数据的表示提供了统一的规范和标准,从而为在大量的财务数据中挖掘有用的知识和模式提供了技术基础。
1 数据挖掘系统原型架构
1. 1数据挖掘的一般过程
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的和随机的数据集中识别有效的、新颖的和潜在有用的,以及最终可理解的模式的过程。数据挖掘是一种涉及面很广的技术手段,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集和模糊数学等相关技术。
数据挖掘的一般过程可划分为3个阶段:数据准备(Date Preparation)、数据挖掘以及结果的解释评估(Interpretation and Evaluation),如图1所示。
系统分为用户接口模块和控制实现模块。其中,用户接口模块是用户使用的接口,通过它控制数据挖掘流程;控制实现模块主要用来完成数据处理。系统工作过程首先从用户提出的要求开始,用户选择要发现的知识模式,并输入参数,选择数据挖掘要使用的数据集;然后,系统自动选择算法进行数据挖掘;最后,系统将挖掘得到的知识经知识表示模块转换为用户能够识别的形式并表现出来。
在上述数据挖掘系统原型中,用户模块要求数据挖掘系统的用户接口必须简单易用;数据预处理模块是为数据挖掘模块提供干净、准确、简化的数据,以减少数据噪声,提高知识发现的准确性;挖掘内核模块是进行实际数据挖掘的模块,从预处理完的数据中发现模式、规则;模式表达与解释模块的主要功能是把挖掘模块得到的知识转换为普通用户能够理解或识别的形式;用户接口模块是用户与系统交互的接口,用户通过此模块,控制整个挖掘流程,直至最后完成挖掘任务。
2 财务数据挖掘系统分析与设计
2. 1财务数据特点分析
2. 1. 1数据规范性强
财务数据处理需采用世界通用的会计记账方法——复式记账法,并满足以下基本处理原则:
(1)有借必有贷,借贷必相等;
(2)资产=负债 所有者权益;
(3)总账余额/发生额必须等于其所属明细账余额/发生额之和。
尽管不同的单位由于业务量不同,而选择的会计核算程序不同,但最终产生的财务数据的格式和内容基本相同。
2. 1. 2数据综合性强
财务数据是企业最主要的信息流,产生于企业资源计划(Enterprise Resource Planning,ERP)的财务子系统。相对于ERP其他子系统产生的业务数据,财务数据具有很强的综合性和概括性。财务数据以货币为主要计量单位,从价值的视角综合、全面、系统地反映企业供产销和人财物的信息。
2. 1. 3数据实时性强
财务数据是企业物流和资金流的动态反映,财务信息的使用者需要随时通过财务数据这一信息流来了解企业的财务状况和经营成果。如果财务数据提供不及时,势必影响其使用效果。
2. 1. 4数据准确性要求高
财务信息要提供给投资者、债权人、管理人员、财政部门、税务部门和银行等,因此,必须保证财务数据处理的正确性,保证财务结果的真实性。否则,虚假的财务信息定会误导有关部门和人员的决策。
2. 1. 5财务数据量大
随着企业会计电算化工作的深入开展,电子商务和ERP系统的广泛应用,企业的会计核算工作越来越细,这使企业在管理过程中积累了大量的财务数据。要使这些财务数据的价值真正得以发挥,依靠手工或简单的数据处理工具是做不到的,必须借助于数据挖掘工具,才能在大量的财务数据中,挖掘出财务信息“金块”。
2. 2财务数据挖掘系统设计
2. 2. 1财务数据挖掘的一般过程
财务数据挖掘的一般过程如图3所示,主要包括财务数据源、财务数据的集成和变换、财务数据仓库、财务数据挖掘以及知识表达等部分。
XBRL不仅能及时提供准确的财务数据,而且增强了使用者在不同应用程序之间交换电子数据的能力。XBRL更具有良好的动态分析功能,当搜索引擎找到所需的信息时,它能进一步追踪下去找到数据的最初来源及其他与该信息有关的资料。例如,用XBRL标记的财务报告通过适当运用搜索工具,信息使用者可以向下挖掘数据源直至相关的支持这些数据的文件。正是这种动态分析功能,实现了财务数据的可下载性、可移植性、可分析性和可追踪性。基于XBRL的财务数据挖掘可以从不同系统中收集财务数据,进行组织和分析,从而使财务信息得到更有效的利用。
基于XBRL的财务数据挖掘模型如图4所示,主要包括财务数据获取模块、XBRL隧道、财务数据挖掘以及基于XBRL描述的知识库。各部分之间的信息流动和数据交换都是基于XBRL进行的。
(1)数据获取模块。数据获取模块的主要功能是获取财务数据源,财务数据的来源可以有多种,可以是本地数据也可以是互联网上的数据。财务数据又可以有多种表现形式,可以是传统的关系型数据库、文本形式的数据、电子表格、会计信息系统报表格式数据、面向对象数据库以及Web数据库等;从数据组织形式上看,可以将财务数据分为基于XBRL描述的财务数据源与非XBRL描述的财务数据源。所有财务数据经过XBRL隧道的预处理,转换为符合XBRL规范的财务数据。
对于数据挖掘过程来说,可以处理各种可能组织形式的数据源,但从数据挖掘的意义角度看,对基于XBRL描述的财务数据挖掘与对非XBRL描述的财务数据挖掘是不可能在同一个层次上进行的。因为基于XBRL描述的财务数据本身就含有一定的描述数据自身意义的信息,而一般的财务数据没有这种能力。XBRL已经是一种规范化的网络财务报告语言,包括Specification (规范),Taxonomies(标准)、Instance Documents(实例文档)、Style Sheets(样式单)等。因此对一般财务数据进行挖掘,应先作相应的处理,将其变为以XBRL描述的财务数据。
(2)XBRL隧道。基于XBRL的财务数据挖掘,其数据源是符合XBRL规范的财务数据,因此在进行财务数据挖掘之前,所有财务数据都要经过预处理,转换成符合XBRL规范的形式,这一过程需要通过XBRL隧道来实现。根据数据的组织形式,XBRL隧道的主要功能分为两个部分:一是对XBRL描述的财务数据源进行规范性检测;二是对非XBRL描述的财务数据进行XBRL封装。
(3)基于XBRL的财务数据挖掘模块。此模块是财务数据挖掘的核心部分,通过采用聚类分析、统计方法、关联规则、决策树方法、神经网络等数据挖掘方法,从大量的具有统一XBRL格式的财务数据中挖掘出潜在的、有用的知识或模式。这一部分的功能主要涉及两个方面:一方面是数据处理机制,由于所处理的财务数据源来自XBRL隧道,所有的财务数据格式从表示形式上看具有统一的XBRL格式,处理这种数据可以采用文档对象模型技术,即Dom处理技术,然后在Dom基础上进行下面的财务数据挖掘过程;另一方面是基于XBRL的财务数据挖掘过程,既然数据源是符合XBRL规范的财务数据,因此在财务数据挖掘的过程中,所使用的处理技术也是符合XBRL规范的,其中XBRL本身的Specification(规范)和Taxonomies(标准)为此提供了很好的基础。
(4)基于XBRL的知识表达模块。知识表达模块的主要功能是对在数据挖掘模块中发现的知识进行可视化的表示,以便于非专业管理人员理解。财务数据挖掘的根本目的是从财务数据中发现有用的知识或模式,在知识的表示形式上,目前较好的且应用较多的有专家系统知识规则、决策树规则和在数据挖掘中的关联规则以及分类规则等。财务数据挖掘结果不仅要有利于人的理解,而且更主要的是要有利于计算机的理解,因此在数据挖掘完成之后,要将所得到的知识,形成符合XBRL规范的知识库。
3 结束语
本文从数据挖掘系统原型架构出发,结合财务数据的特点分析、财务数据挖掘的一般过程和XBRL技术,设计出一种基于XBRL的财务数据挖掘系统模型,为进一步深入研究财务数据挖掘提供了一种较好的方法。当然XBRL技术本身还在不断发展过程中,数据挖掘也是一项复杂的技术,基于XBRL的财务数据挖掘系统的实现还有一定困难。但随着信息技术的飞速发展以及新的规范和方法的不断运用,这一经济而实用的财务数据挖掘系统一定能够实现。
主要参考文献
[1] 安海忠,刘宁,郑链. 数据挖掘系统原形架构的研究[J]. 无线电工程,2005(1):56-57.
[2] 卫金茂,王石,伊卫国. 基于XML的数据挖掘[J]. 计算机工程与设计,2003,24(10):106-108.
[3] 曹露燕,孟凡荣,蒋晓云. 煤矿系统数据挖掘模型的研究与设计[J]. 计算机工程与设计,2006,24(12):4547-4550.
[4] 许渊. 面向XBRL的数据挖掘[J]. 中国管理信息化,2005(10):45-46.
[5] 刘静. 浅谈XBRL与财务信息数据挖掘[J]. 湖南财经高等专科学校学报,2004,20(6):53-55.
[关键词] XBRL;财务;数据挖掘
[中图分类号]F232;F275[文献标识码]A[文章编号]1673-0194(2008)18-0012-04
0 引 言
随着信息技术、网络技术和通信技术的发展,企业信息化程度越来越高,越来越多的企业应用了电子商务和ERP系统,在越来越廉价的存储设备配合下,产生了大量的财务数据。但与之相配合的数据分析和知识提取技术的发展却相对缓慢,使得存储的大量财务数据得不到充分利用,不能转化成指导生产的“知识”, 数据挖掘技术正是在这样的背景下产生并迅速兴起的。数据挖掘(Data Mining,DM)也称为数据库知识发现(Knowledge Discovery in Databases,KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的、有用的模式(也叫知识)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识,得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各方面的重视。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析等)的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前未知、有效和实用3个特征。先前未知的信息是指该信息是预先未曾预料到的,挖掘出的信息越是出乎意料,就可能越有价值。
到目前为止,大多数数据挖掘是借用人工智能的各种方法来挖掘数据中存在的知识。但是,正如人工智能本身的发展研究现状一样,数据挖掘还不能很好地理解数据中存在的知识。XML技术的出现,不仅为互联网上的电子数据交换提供了一个标准,而且XML技术从数据的角度提供了一个可以更好地表示数据内容以及数据所代表意义的手段。可扩展商业报告语言(eXtensible Business Reporting Language,XBRL)作为XML在网络财务报告语言上的应用,对财务数据的表示提供了统一的规范和标准,从而为在大量的财务数据中挖掘有用的知识和模式提供了技术基础。
1 数据挖掘系统原型架构
1. 1数据挖掘的一般过程
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的和随机的数据集中识别有效的、新颖的和潜在有用的,以及最终可理解的模式的过程。数据挖掘是一种涉及面很广的技术手段,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集和模糊数学等相关技术。
数据挖掘的一般过程可划分为3个阶段:数据准备(Date Preparation)、数据挖掘以及结果的解释评估(Interpretation and Evaluation),如图1所示。
系统分为用户接口模块和控制实现模块。其中,用户接口模块是用户使用的接口,通过它控制数据挖掘流程;控制实现模块主要用来完成数据处理。系统工作过程首先从用户提出的要求开始,用户选择要发现的知识模式,并输入参数,选择数据挖掘要使用的数据集;然后,系统自动选择算法进行数据挖掘;最后,系统将挖掘得到的知识经知识表示模块转换为用户能够识别的形式并表现出来。
在上述数据挖掘系统原型中,用户模块要求数据挖掘系统的用户接口必须简单易用;数据预处理模块是为数据挖掘模块提供干净、准确、简化的数据,以减少数据噪声,提高知识发现的准确性;挖掘内核模块是进行实际数据挖掘的模块,从预处理完的数据中发现模式、规则;模式表达与解释模块的主要功能是把挖掘模块得到的知识转换为普通用户能够理解或识别的形式;用户接口模块是用户与系统交互的接口,用户通过此模块,控制整个挖掘流程,直至最后完成挖掘任务。
2 财务数据挖掘系统分析与设计
2. 1财务数据特点分析
2. 1. 1数据规范性强
财务数据处理需采用世界通用的会计记账方法——复式记账法,并满足以下基本处理原则:
(1)有借必有贷,借贷必相等;
(2)资产=负债 所有者权益;
(3)总账余额/发生额必须等于其所属明细账余额/发生额之和。
尽管不同的单位由于业务量不同,而选择的会计核算程序不同,但最终产生的财务数据的格式和内容基本相同。
2. 1. 2数据综合性强
财务数据是企业最主要的信息流,产生于企业资源计划(Enterprise Resource Planning,ERP)的财务子系统。相对于ERP其他子系统产生的业务数据,财务数据具有很强的综合性和概括性。财务数据以货币为主要计量单位,从价值的视角综合、全面、系统地反映企业供产销和人财物的信息。
2. 1. 3数据实时性强
财务数据是企业物流和资金流的动态反映,财务信息的使用者需要随时通过财务数据这一信息流来了解企业的财务状况和经营成果。如果财务数据提供不及时,势必影响其使用效果。
2. 1. 4数据准确性要求高
财务信息要提供给投资者、债权人、管理人员、财政部门、税务部门和银行等,因此,必须保证财务数据处理的正确性,保证财务结果的真实性。否则,虚假的财务信息定会误导有关部门和人员的决策。
2. 1. 5财务数据量大
随着企业会计电算化工作的深入开展,电子商务和ERP系统的广泛应用,企业的会计核算工作越来越细,这使企业在管理过程中积累了大量的财务数据。要使这些财务数据的价值真正得以发挥,依靠手工或简单的数据处理工具是做不到的,必须借助于数据挖掘工具,才能在大量的财务数据中,挖掘出财务信息“金块”。
2. 2财务数据挖掘系统设计
2. 2. 1财务数据挖掘的一般过程
财务数据挖掘的一般过程如图3所示,主要包括财务数据源、财务数据的集成和变换、财务数据仓库、财务数据挖掘以及知识表达等部分。
XBRL不仅能及时提供准确的财务数据,而且增强了使用者在不同应用程序之间交换电子数据的能力。XBRL更具有良好的动态分析功能,当搜索引擎找到所需的信息时,它能进一步追踪下去找到数据的最初来源及其他与该信息有关的资料。例如,用XBRL标记的财务报告通过适当运用搜索工具,信息使用者可以向下挖掘数据源直至相关的支持这些数据的文件。正是这种动态分析功能,实现了财务数据的可下载性、可移植性、可分析性和可追踪性。基于XBRL的财务数据挖掘可以从不同系统中收集财务数据,进行组织和分析,从而使财务信息得到更有效的利用。
基于XBRL的财务数据挖掘模型如图4所示,主要包括财务数据获取模块、XBRL隧道、财务数据挖掘以及基于XBRL描述的知识库。各部分之间的信息流动和数据交换都是基于XBRL进行的。
(1)数据获取模块。数据获取模块的主要功能是获取财务数据源,财务数据的来源可以有多种,可以是本地数据也可以是互联网上的数据。财务数据又可以有多种表现形式,可以是传统的关系型数据库、文本形式的数据、电子表格、会计信息系统报表格式数据、面向对象数据库以及Web数据库等;从数据组织形式上看,可以将财务数据分为基于XBRL描述的财务数据源与非XBRL描述的财务数据源。所有财务数据经过XBRL隧道的预处理,转换为符合XBRL规范的财务数据。
对于数据挖掘过程来说,可以处理各种可能组织形式的数据源,但从数据挖掘的意义角度看,对基于XBRL描述的财务数据挖掘与对非XBRL描述的财务数据挖掘是不可能在同一个层次上进行的。因为基于XBRL描述的财务数据本身就含有一定的描述数据自身意义的信息,而一般的财务数据没有这种能力。XBRL已经是一种规范化的网络财务报告语言,包括Specification (规范),Taxonomies(标准)、Instance Documents(实例文档)、Style Sheets(样式单)等。因此对一般财务数据进行挖掘,应先作相应的处理,将其变为以XBRL描述的财务数据。
(2)XBRL隧道。基于XBRL的财务数据挖掘,其数据源是符合XBRL规范的财务数据,因此在进行财务数据挖掘之前,所有财务数据都要经过预处理,转换成符合XBRL规范的形式,这一过程需要通过XBRL隧道来实现。根据数据的组织形式,XBRL隧道的主要功能分为两个部分:一是对XBRL描述的财务数据源进行规范性检测;二是对非XBRL描述的财务数据进行XBRL封装。
(3)基于XBRL的财务数据挖掘模块。此模块是财务数据挖掘的核心部分,通过采用聚类分析、统计方法、关联规则、决策树方法、神经网络等数据挖掘方法,从大量的具有统一XBRL格式的财务数据中挖掘出潜在的、有用的知识或模式。这一部分的功能主要涉及两个方面:一方面是数据处理机制,由于所处理的财务数据源来自XBRL隧道,所有的财务数据格式从表示形式上看具有统一的XBRL格式,处理这种数据可以采用文档对象模型技术,即Dom处理技术,然后在Dom基础上进行下面的财务数据挖掘过程;另一方面是基于XBRL的财务数据挖掘过程,既然数据源是符合XBRL规范的财务数据,因此在财务数据挖掘的过程中,所使用的处理技术也是符合XBRL规范的,其中XBRL本身的Specification(规范)和Taxonomies(标准)为此提供了很好的基础。
(4)基于XBRL的知识表达模块。知识表达模块的主要功能是对在数据挖掘模块中发现的知识进行可视化的表示,以便于非专业管理人员理解。财务数据挖掘的根本目的是从财务数据中发现有用的知识或模式,在知识的表示形式上,目前较好的且应用较多的有专家系统知识规则、决策树规则和在数据挖掘中的关联规则以及分类规则等。财务数据挖掘结果不仅要有利于人的理解,而且更主要的是要有利于计算机的理解,因此在数据挖掘完成之后,要将所得到的知识,形成符合XBRL规范的知识库。
3 结束语
本文从数据挖掘系统原型架构出发,结合财务数据的特点分析、财务数据挖掘的一般过程和XBRL技术,设计出一种基于XBRL的财务数据挖掘系统模型,为进一步深入研究财务数据挖掘提供了一种较好的方法。当然XBRL技术本身还在不断发展过程中,数据挖掘也是一项复杂的技术,基于XBRL的财务数据挖掘系统的实现还有一定困难。但随着信息技术的飞速发展以及新的规范和方法的不断运用,这一经济而实用的财务数据挖掘系统一定能够实现。
主要参考文献
[1] 安海忠,刘宁,郑链. 数据挖掘系统原形架构的研究[J]. 无线电工程,2005(1):56-57.
[2] 卫金茂,王石,伊卫国. 基于XML的数据挖掘[J]. 计算机工程与设计,2003,24(10):106-108.
[3] 曹露燕,孟凡荣,蒋晓云. 煤矿系统数据挖掘模型的研究与设计[J]. 计算机工程与设计,2006,24(12):4547-4550.
[4] 许渊. 面向XBRL的数据挖掘[J]. 中国管理信息化,2005(10):45-46.
[5] 刘静. 浅谈XBRL与财务信息数据挖掘[J]. 湖南财经高等专科学校学报,2004,20(6):53-55.