论文部分内容阅读
持续走热的通用搜索引擎带来了海量信息检索的极大便利,但对于具体某个领域而言,检索能力尚不足以令人满意。于是,各个领域的垂直搜索犹如百花齐放。具体到金融领域,投资用户经常需要阅读繁杂的年报数据,而通用搜索引擎对此能帮上的忙极为有限。于是,基于金融年报本体库的金融年报语义网信息检索系统应运而生,该系统能给予投资用户精确的查询结果,并能进行自动推理,向用户推送可能需要的信息。而大规模金融年报语义网的自动构建问题是该系统的最大瓶颈所在。本文的主要研究目的就是将本体与信息抽取技术相结合,实现金融年报语义网的自动构建。主要的研究内容如下:(1)对年报文本,通过最小标注块的切分、精确匹配及模糊匹配,并基于金融年报本体库进行语义的自动标注。(2)对年报非标记表格进行表格结构识别,主要包括子表格切分、列分割和列跨度识别、行分段、展开方式识别和表格标题定位这五个方面。后三个方面都使用了金融年报本体库的信息。(3)对经过结构识别的非标记表格进行规整化,得到具有清晰行列信息的标准表格,之后再基于本体进行表格的语义自动标注。(4)研究用于金融年报语义网自动构建系统的准确度评测方法,并评测了本体库对系统的影响程度。在表格结构识别阶段,子表格切分、列分割和行分段都有很高的准确度。列跨度识别过于依赖文本排布,展开方式过于依赖本体,因此它们的准确度稍差些,还需要进一步改进。由于本体库的完善与否、表格结构识别各阶段的准确度以及模糊匹配算法的选择都会影响整个系统的性能,因此目前该系统的准确度为63.1%,还具有一定的改进空间。本文的研究方法还可适当地用于其他领域的语义自动标注,因为本体库的切换,可以让其快速切换到其它领域,这也在一定程度上展示了系统的良好扩展性。此外,本文的算法研究也可为其他半结构化文档的结构化及非标记表格的信息抽取带来一定的参考价值。