论文部分内容阅读
随着互联网的飞速发展,问答系统为用户提供智能知识服务而受到青睐。本文从金融领域的角度出发,针对用户所提问句的不确定性和多样性,对金融领域中文数据进行分析梳理和结构化,构建了知识图谱,研究并实现了基于中文知识图谱的金融领域问答系统(CF-KGQA)。主要工作如下:1.获取与存储数据,构建了具有金融领域特性知识图谱。(1)搭建了一套一主十从的分布式爬虫系统,且为保障数据存储的安全,搭建了可主从备份的数据库集群。(2)定义知识图谱中实体、实体间关系的概念。在构建知识图谱时,不仅要考虑金融领域特性设计图谱结构,还要根据问答系统的实际需求不断进行调整。2.提出了基于深度学习的金融领域问句语义依存分析方法。提出了一种基于讯飞开放平台的语义依存图分析(Semantic Dependency Graph Parsing,SDGP)、双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)和条件随机场(Conditional Random Field,CRF)的语义依存分析方法(DR-BLSTM-CRF)。(1)结合BLSTM和CRF的命名实体识别(Named Entity Recognition,NER)算法对问句进行命名实体识别,获得一个包含字符标签信息的序列。(2)采用基于讯飞开放平台Web API对问句进行语义依存图分析,获得一个包含语义依存信息的句子表示,再结合(1)中的命名实体识别结果,通过依赖缩减得出更为准确的语义依存图。实验结果表明,在自建的约140000条金融领域问句数据集上,本文提出的方法与语言技术平台(Language Technology Platform,LTP)的语义依存分析效果相比,准确率、召回率和F1值分别提高33.4%、33.9%和34.2%,该方法可以有效地对金融领域问句进行语义依存分析。3.设计并实现了基于知识图谱的问答系统。在之前理论和实验基础上,将知识图谱和基于深度学习的金融领域问句语义依存分析方法应用于问答系统,设计知识图谱模块、前端展示模块和问答模块三大功能模块,并将问答结果在网页以动态图的形式进行展示。