特定领域知识图谱的自动构建方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shiqingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机性能的不断提升与互联网文本所蕴含的信息的快速增长,将Web信息结构化、知识化,构造由概念、实体、关系所构成的语义网络——知识图谱,已成为大势所趋。根据适用范围的不同,又可将知识图谱划分为通用知识图谱和领域知识图谱。自2012年谷歌将知识图谱应用于搜索引擎以来,通用知识图谱在工业界和学术界均取得了长足的进步。然而,相较于通用知识图谱的发展,领域知识图谱的研究仍有待展开。由于领域知识图谱适用范围和构造要求的特异性,始终面临着缺乏标注语料,构建过程人工程度过高等问题。因此本文以构造金融领域知识图谱为依托,探究知识图谱自动构建方法,考虑到命名实体识别和关系抽取是构建知识图谱过程中最为重要的工作,本文主要针对此两方面进行算法改进,本文的主要贡献如下:针对特定领域知识图谱构造问题,以构建金融知识图谱为例,探究了构建领域知识图谱的一般性方法,建立了以包括分布式爬虫、众包标注平台、领域命名实体识别算法、领域关系抽取算法等一整套完整的领域知识图谱构建流程。针对金融领域命名实体识别问题,本文以CRF和Bi LSTM算法为基准,探究提高领域命名实体识别的方法。针对标注语料较少的问题,采用主动学习与CRF结合的方法,在增加少量人工标注语料的情况下,将CRF识别的F值提高到91.46%。而针对训练数据较少,神经网络训练不充分的问题,本文采用领域未标注文本,预训练词向量的方式,作为Bi LSTM+CRF模型的输入。大幅度提升了Bi LSTM+CRF模型的效果,取得了91.76%的F值。针对金融领域关系抽取的问题,本文对合并、收购、持股、转让、投资等五种关系进行抽取,通过构建词特征、位置特征、语法特征等方式,将其抽象为机器学习分类问题。对比了多种传统的机器学习分类算法,并采用深度随机森林的方法,挖掘关系间深层次的组合特征,在所有分类任务中F值均有显著的提升。
其他文献
道路网是现实生活中地图的抽象,其结构为一个带边权重的图。其中,图顶点代表在道路网中的一个路段交界位置或是一个重要地理位置(如景区,重要医院,著名大学等),而两点之间的
  随着企业业务过程重组的广泛应用,工作流成为当前计算机学科的一个重要研究方向。作为一门应用性很强的新兴技术,它存在很多值得研究的地方。如何适应企业业务过程重组的需
本论文介绍了国际电信管理发展的过程,着重对eTOM,这种未来电信管理的框架模型进行了研究和分析。同时也对基于eTOM框架的新一代电信运营支撑系统NGOSS进行了分析。  本文还
随着各种网络攻击手段的多元化、复杂化、智能化,单纯依赖传统的操作系统加固技术和防火墙隔离技术等静态防御已难以胜任网络安全的需要.IDS作为动态安全技术之一,提供了实时
随着社会的发展和技术的进步,身份识别和验证的需求与日俱增,常用的身份识别包括,人脸识别、指纹识别、虹膜识别、声音识别等,而人脸图像由于具有辨识度高、获取性容易等优势
随着电信基础建设的高速发展,网络规模的迅速扩大,网络管理的质量和维护水平难以得到保证。与此同时,电信网络往往由若干不同大小的子网组成,包括不同厂家的网络和通信设备,
本文中提出并实现的智能网呼叫中心以市场需求为背景,结合了智能网与传统呼叫中心两者的优点。作者在智能网呼叫中心系统设计和实现过程中,遵循着不改变现有智能网结构原则,并在
随着计算机技术的飞速发展,计算机辅助教学成为一种新的教学手段。利用计算机高级编程语言开发教学软件可以改善各种教学软件之不足。为了解决数学和物理教学面临的现状,将计算
近几十年来,随着高通量测序技术、新一代测序技术的不断发展,表观遗传学的研究越来越深入。基因表达调控一直是表观遗传学的研究热点,从DNA转录期到后期一系列的蛋白质转录,
随着越来越多数字内容在Internet上广泛出版与递送,人们迫切希望通过数字权限管理技术来保护数字内容的知识产权,保障作者、出版商、分销商的利益和用户的合法权利。数字权限