论文部分内容阅读
随着信息化时代的高速发展,近些年来互联网技术得到了爆炸式的飞速发展,同时互联网在各行各业广泛普及应用,互联网上文本数据呈爆炸式增长。虽然互联网上海量的、多样的数据让人们获取知识变得更加容易,但是其中大量的无用的数据同样让人们高效准确地获取知识变得更加困难。人们迫切希望一种技术能够从海量的数据中抽取有用的知识,当人们需要某种知识时可以直接准确获取,而不需要人工筛选。知识图谱正是在这种情况下诞生的,知识图谱就是覆盖在海量数据上的知识网络结构,它从海量的数据中抽取有用的知识,以实体关系三元组的形式结构化呈现给用户,让人们可以快速准确地获取需要的知识,而实体关系抽取则是构建知识图谱的核心技术。因而,知识图谱和实体关系抽取从提出至今一直是热门研究方向,面向领域知识图谱研究实体关系抽取算法在学术上和工程上都有极大的价值和意义。本文首先介绍了知识图谱和实体关系抽取算法在国内外的发展历程和研究现状,然后分析了知识图谱和实体关系抽取的相关技术,接着在此基础上面向经济领域知识图谱深入研究实体关系抽取算法,并在已有的经典算法模型基础上进行优化改进,提出了本文改进的基于远程监督的实体关系抽取算法,最后将本文改进的算法模型应用于实际的经济领域的具体数据上,成功搭建了经济领域的大数据知识图谱中心系统。整体来讲,本文的具体工作和主要贡献如下所示:(1)针对远程监督实体关系抽取算法的数据自动标注模块存在的准确率和召回率较低的问题,本文在已有算法模型的基础上进行优化,提出了本文的联合关系特征词与句子相似度的自动标注算法。具体来讲,首先,结合依存句法分析改进句子相似度,使得句子相似度主要依赖于和实体对相关的句子成分,强调实体对对句子的约束条件,然后,结合本文改进的句子相似度计算方法和传统的关系特征词匹配方法实现本文的数据自动标注算法,最后,将本文改进的数据自动标注算法与经典的Mintz方法、关系特征词扩展方法和关键词相似度方法进行了对比实验,实验结果证明了本文的数据自动标注算法相较于Mintz方法在准确率上有着极大的提升,相较于关系特征词扩展方法和关键词相似度方法在准确率和召回率上都有较好的提升;(2)针对已有的远程监督关系抽取模型忽略了句子中的关系受实体对约束的问题和经典算法PCNNs-ATT模型面向经济领域具体中文数据存在的中文分词噪声传递、多关系分类以及重复计算这些具体小问题,本文在PCNNs-ATT模型的基础上,设计了基于依存句法分析的拟字符注意力机制,实现了实体对对句子中关系的约束条件,同时引入字词混合向量、多标签问题和关系表示解决了中文分析噪声传递、多关系分类和重复计算的问题,最终提出了本文的PCNNs-ATT-DP模型,实现远程监督关系抽取,最后,将本文改进的PCNNs-ATT-DP模型与经典的Mintz模型、MIML模型、PCNNs模型和PCNNs-ATT模型进行了对比实验,实验结果证明了本文改进的PCNNs-ATT-DP模型在经济领域中文数据的实体关系抽取任务中,相较于其他经典的Mintz模型、MIML模型、PCNNs模型以及PCNNs-ATT模型,在准确率和召回率上都有良好的提升,同时,在这几种经典远程监督关系抽取算法中取得了最高的F值;(3)在本文第三章改进的经济领域数据自动标注算法和第四章改进的远程监督关系抽取模型PCNNs-ATT-DP模型的基础上,本文还面向中文经济领域的具体数据设计并实现了大数据知识图谱中心系统,实现了本文研究算法的应用。