基于语义网技术的XBRL文档自动化数据框架研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lj200610819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来不仅带来数据规模膨胀与语义复杂化的问题,还将半结构化数据以及非结构化数据的处理问题带到台前。与此同时,金融行业的快速信息化推动了将XBRL文档也纳入开放数据体系的研究步伐,相关研究也逐步从理论探索走向了场景应用。作为半结构化数据的代表,XBRL文档实时地提取和挖掘需求对数据提出了两个要求:既需要XBRL文档具有较高的语义性,又需要一套能够大规模处理XBRL实例文档的框架。这两个要求的冲突给XBRL文档语义化带来了巨大挑战。首先,XBRL文档的语义一般通过构建语义模型,并通过为语义模型中添加丰富的概念与属性实现语义保留,但是数据规模的增大使得完备的语义模型的读写、更新、存储、查询均出现瓶颈限制,即目前应用场景仅能在小规模数据集中使用。其次,大规模处理XBRL实例文档的框架更多着眼于利用计算模型来解决XBRL文档的分布式解析与架构设计,忽略了XBRL文档定义的丰富概念和复杂关系。最后,规模处理与语义质量的冲突使得无法链接到外部数据的XBRL文档成为数据孤岛,限制了XBRL数据的应用。本文首先分析XBRL文档中的技术规范文件、分类标准文件和实例文件的结构与概念层级,构建了XBRL文档标记树的数据模型,在此基础上以OWL/RDF的语法针对XBRL文档的类目关系构建了改进语义模型,并为XBRL标准分类本体添加了丰富的概念与属性,实现XBRL文档语义化建模。其次,本研究提出了两套实例处理框架,一套通过传统的添加实例方法,另一套无监督自动化语义化大规模XBRL实例文档语义转换的数据框架,通过实体识别、基于外部知识库和内联频率的实体优化算法和三元组处理器三大部件,实现从XBRL实例文档到RDF数据的无人工干预高效转化与实时更新,并实现了XBRL文档的图形数据库存储模式将其链接发布在Web上,解放XBRL数据巨大的数据挖掘潜力。最后,本研究设计实验,通过验证转换后RDF的查询准确率以及不同转换机制对RDF数据质量的影响实现评估数据框架的处理效率与数据转换质量,证明了本研究提出的自动化语义数据处理框架的有效性与高效性。
其他文献
构造变形影响地表过程,而地表侵蚀和堆积过程通过地壳均衡作用,也对构造应力分布、构造变形样式等产生了反馈作用。大尺度下地表侵蚀和沉积对构造发育的影响已经取得了一定的进展,而中等尺度褶皱冲断带的构造差异会造成河流形态和沉积物分布更为复杂,并反作用于构造发育,是研究地表侵蚀与地壳变形相互作用的重要场所。本研究利用水饱和的材料进行了多组构造地貌物理模拟实验,探讨了塑性滑脱层是否存在及其厚度的差异、不同地壳
我国在计划经济时代,城市横向之间的联系被人为阻断;90年代我国的社会主义市场经济体制开始改革;进入21世纪,我国的社会主义市场化经济改革完成,开始进入产业振兴时期,企业之间的跨区域投资行为逐渐涌现,流空间逐渐形成,城市网络逐渐发育。在此背景下,本文希望在投资视角下对进入21世纪的中国城市网络的演化特征及其机制进行研究。通过理论和文献的综述,可以发现城市网络研究目前呈现两级化的特征,一方面,我国的城
多重散射声的研究对于探索强散射介质内部结构、丰富相关问题的实验现象、验证和完善相关理论,以及探索多重散射声的物理本质具有重要意义。本文以水中无序排列的平行圆柱体群为研究对象,研究平面超声脉冲经多重散射后的透射波的性质,通过分析其头波和散射波的特征获得对应的多重散射参数。本文首先介绍了研究多重散射问题的目的和意义,列举了多重散射声问题在国内外的发展动态以及研究多重散射声的理论、方法和模型。论文第二部
随着人类生产活动实践经验积累和理论发展,世界各地建筑工程实践中所使用的材料、建造技术和施工都获得了巨大的革新和进步。木材作为传统的建筑材料在当今的建筑市场中仍以力学性能高、成本低廉的优势覆盖了大部分住宅或公建的建筑材料,但随着建筑高度和跨度的增加,木材的使用量也加倍增长,但有时候木材的受力上限仍无法满足建筑大空间的需求,而且森林面积的减少和生态环境的恶化,也迫使我们将眼光聚焦到新材料或者新技术的拓
氢能,具有能量密度高、燃烧产物无碳排放等优点,被认为是理想的可持续清洁能源。电解水制氢技术是生产高纯氢的有效方法。然而,由于析氧反应(OER)具有较慢的动力学以及较高的过电势,使实际工业电解水受到了极大阻碍。因此,开发能够在低过电势下加快反应速率并具有良好稳定性的高效析氧电催化剂成为了一项巨大挑战。本论文以电解水析氧反应为研究对象,设计合成了2种金属氧化物异质结析氧电催化剂,具体工作如下:1.本研
新冠疫情的爆发又一次对我国政府的应急能力提出了挑战,作为突发事件高发国家之一,政府亟需构建完善的应急管理体系。应急物资作为应急救援工作顺利展开的重要保障,保证其充足的供给是保证应急供应链正常运转的关键,应急物资供应商作为应急物资的主要提供者之一,需要结合科学严谨的方法去评价筛选。本文对众学者关于供应商选择的相关理论作了研究归纳,分析了应急产业、应急供应链的特点和结构,对应急供应链的构建和应急物资的
目的:1.通过多中心现况调查了解慢性伤口患者全身皮肤清洗的现况并分析全身皮肤清洗的影响因素,为队列研究进一步分析全身皮肤清洗对慢性伤口预后的影响奠定基础;2.通过前瞻性队列研究分析慢性伤口患者全身皮肤清洗与否对伤口愈合、伤口感染这些预后指标的影响,为慢性伤口患者能否进行全身皮肤清洗提供临床依据。方法:1.本研究分两部分进行,第一部分进行慢性伤口患者全身皮肤清洗的多中心横断面调查,按照纳排标准调查7
天地一体化通信网络采用统一的架构和技术标准,融合了地面通信网络和空间通信网络,能够提供高速稳定、覆盖广泛的网络通信服务。但是,由于长距离的开放链路和复杂的空间环境,天地一体化通信网络易受到多层次的网络攻击。因此,有必要对天地一体化通信网络进行设计优化,防止恶意窃听。混沌激光通信技术是一种基于物理层的保密通信技术,具有安全稳定的优势。但是,目前将混沌激光通信技术应用在天地一体化通信网络中的研究比较少
随着时代进步,我国建筑行业虽然一直在以国际化标准为目标发展,大环境仍是粗放的,缺乏对细部构造更深入的推敲研究。技术与表达本是同根生,却常常被割裂地处理。此次课题,笔者参与了“省十三五重点规划教材”课题组《建构设计——材料·构造·结构》教材图集编制,并选取其中“基础与大地的关系表达”章节为专题,对基础的设计与表达进行拓展研究。旨在通过筛选、收集、归纳国内外优秀案例,吸收工作室实际项目经验,为建筑师在
现代木构建筑有着节能低碳的环境保护意义,很多国家鼓励以现代木构技术建造建筑。对于现代木构技术下的外围护结构,人们对材料的选择更多样,对围护体性能需求的了解更精确,对构造的处理更科学。本文是基于南大建构课构造教材《建构设计——材料·构造·结构》的专题研究。即是基于教材中材料-木材部分,研究现代木构建筑的外围护结构的构造与表达。意在通过对材料-问题-案例的学习,总结基于材料特性和现代木围护结构性能需求