论文部分内容阅读
XBRL(可扩展商业报告语言,eXtensible Business Reporting Language)是面向金融财政领域的XML扩展语言,该标准的广泛应用使得XBRL财务报表数量以成倍速度增长,对XBRL文件进行数据存储及分析具有重大意义。但XBRL文档逻辑结构比较复杂,且缺少数据对象的描述,现存的数据存储及分析工具无法直接对其分析,本文针对这一问题对XBRL数据存储应用展开研究。本文首先对XBRL技术原理进行了深入分析研究,针对最新分类标准引入XBRL Dimesions2.1规范的这一特性,提出了一种基于CWM(公共仓库元模型,Common Warehouse Metamodel)标准的XBRL数据存储方案。该方案不仅有效地解决了平面关系数据库无法展现XBRL多维结构的问题,而且基于CWM标准构建的XBRL多维模型使得XBRL文件与数据存储及分析工具在元数据级别达到集成,所以该模型具有良好的独立性、通用性、可扩展性,在XBRL数据存储及分析方面有着广泛的前景。在此基础上,针对方案中存储引擎研究中的高效率查询需求,本文引入索引编码和改进解析方式两种途径来对XBRL数据查询优化。首先基于前缀编码,借鉴冗余思想,本文提出了一套更适合XBRL查询特点的编码方式。该编码方式不仅保留了前缀编码查询效率较高这一查询特点,而且标签结构编码和顺序编码分离的思想使得该编码不仅支持标签查询,而且完全支持XBRL子树动态更新。为了加快XBRL文件查询解析速度,本文提出SAX和DOM相结合的解析方式来进行XBRL数据处理,此解析方式大大地提高了解析速度。本文最后设计并实现了基于CWM标准的XBRL数据存储系统,该系统包括两个模块:数据存储模块及数据引擎模块。数据存储模块将XBRL数据以基于CWM标准的多维模型方式展现,具有独立性和通用性,在数据引擎模块通过引用XBRL查询解析器来优化查询,从而大大提高了系统性能。