基于本体的金融年报语义网自动构建方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lmwtz0x8u0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
持续走热的通用搜索引擎带来了海量信息检索的极大便利,但对于具体某个领域而言,检索能力尚不足以令人满意。于是,各个领域的垂直搜索犹如百花齐放。具体到金融领域,投资用户经常需要阅读繁杂的年报数据,而通用搜索引擎对此能帮上的忙极为有限。于是,基于金融年报本体库的金融年报语义网信息检索系统应运而生,该系统能给予投资用户精确的查询结果,并能进行自动推理,向用户推送可能需要的信息。而大规模金融年报语义网的自动构建问题是该系统的最大瓶颈所在。本文的主要研究目的就是将本体与信息抽取技术相结合,实现金融年报语义网的自动构建。主要的研究内容如下:(1)对年报文本,通过最小标注块的切分、精确匹配及模糊匹配,并基于金融年报本体库进行语义的自动标注。(2)对年报非标记表格进行表格结构识别,主要包括子表格切分、列分割和列跨度识别、行分段、展开方式识别和表格标题定位这五个方面。后三个方面都使用了金融年报本体库的信息。(3)对经过结构识别的非标记表格进行规整化,得到具有清晰行列信息的标准表格,之后再基于本体进行表格的语义自动标注。(4)研究用于金融年报语义网自动构建系统的准确度评测方法,并评测了本体库对系统的影响程度。在表格结构识别阶段,子表格切分、列分割和行分段都有很高的准确度。列跨度识别过于依赖文本排布,展开方式过于依赖本体,因此它们的准确度稍差些,还需要进一步改进。由于本体库的完善与否、表格结构识别各阶段的准确度以及模糊匹配算法的选择都会影响整个系统的性能,因此目前该系统的准确度为63.1%,还具有一定的改进空间。本文的研究方法还可适当地用于其他领域的语义自动标注,因为本体库的切换,可以让其快速切换到其它领域,这也在一定程度上展示了系统的良好扩展性。此外,本文的算法研究也可为其他半结构化文档的结构化及非标记表格的信息抽取带来一定的参考价值。
其他文献
分布式虚拟现实技术是近年来科研与工程领域的热点。然而,在分布式虚拟现实系统的研发过程中,为了达到真实且实时的沉浸感和交互性能,设计者需要应对许多问题,主要包括如何降
基于网络的外语学习平台是目前网络技术研究的热点之一,它将改变现有的外语学习环境和教学模式,极大地提高外语学习效率。现有的外语学习平台只能在客观题上给学生标准答案,而无
IPv6是IETF制定的新一代网际协议,以取代目前地址日渐短缺的IPv4协议。尽管IPv6能够解决地址匮乏的问题,但是从IPv4过渡到IPv6还需要很长一段时间,在此期间,所有新增的IPv6网
随着网络技术的发展,越来越多的机密信息被存储到企业内部网络的计算机上。虽然企业在保障信息安全上投入了大量的资金,但因为信息泄漏而给企业带来的损失仍呈逐年上升趋势。
当今世界,反恐作战已成为世界各国捍卫国家安全与利益的重要内容。但由于反恐作战的特殊性,安保人员时常会冒着生命危险去排查一些可疑爆炸物,这项任务难免会让人感到极度恐
长江是沿岸地区经济发展的重要支柱,是长江水运交通的主动脉。但近些年,长江中下游河道乱采滥挖江砂问题越来越突出,严重威胁了长江河道的安全以及长江防洪。由于长江中下游
随着互联网的发展,WWW上信息量在快速的增长,网络在为人们提供了大量信息的同时,也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面
手势交互作为一种新颖的人机交互手段,它简单、直观、易使用,在某些应用领域,如虚拟现实、手语翻译、远程控制等领域,有着不可替代的优越性,因此,越来越得到人们的重视。虽然目前还
学位
在过去的几十年间,人们见证了互联网的飞速发展,见证了一个全新的信息时代的到来。然而,互联网上的信息数量之多,增长和更新速度之快,也是前所未有的。在进入信息时代的同时,我们也