垂直领域知识图谱构建的关键技术研究

来源 :北京邮电大学 | 被引量 : 21次 | 上传用户:Tengshuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱(Knowledge Graph)是Google于2012年提出的一种高效的知识表达模型。它使用一系列字符串符号映射于真实世界中存在的各种实体或概念中,然后以这些实体或概念间的关联关系为连接符,将不同类型的信息连接在一起,从而构成一张巨大的语义网络图。与传统的信息管理方式相比,知识图谱能够帮助人们更快速有效地获取所需的知识间的逻辑关系,有利于知识间智能推理的实现。其中,垂直领域知识图谱面向特定的行业领域,能够被应用于搜索引擎、智能问答、知识挖掘和决策支持等业务中。因此,其构建技术的研究具有重要意义。本文在调研和分析现有知识图谱构建方法的基础上,研究基于多种数据源构建中文垂直领域知识图谱,并对一些已有的知识图谱构建关键技术提出改进方案。论文的主要贡献包括:1.对于知识抽取中的中文垂直领域命名实体识别任务,本文在经典的字粒度Bi-LSTM-CRF命名实体识别模型基础上,针对中文垂直领域特点,提出了创新性的改进方案。其中,基于注意力的中文词信息增强模型能够通过注意力机制训练出字所属的每个词对字义的贡献程度比,将词向量信息按其语义贡献比例加入字粒度的命名实体识别模型中。另外,还针对汉字的特点提出了一种字形特征融合方案,以增强未登录字的识别效果。本论文将改进方法与经典模型应用于中文电子病历命名实体识别任务,验证结果表明该方法相比经典的字粒度Bi-LSTM-CRF模型取得了较大的识别准确性提升。2.提出融合知识图谱实体描述文本信息的知识图谱表示学习方法。该方法使用Doc2Vec算法得到实体描述文本向量,并将该向量使用单隐层的神经网络与翻译模型进行融合。然后本论文将所述方法应用于所构建的医疗知识图谱中,通过对比实验验证了算法的有效性。3.设计了垂直领域知识图谱构建的整体架构方案,并以医疗领域知识图谱的构建为例,设计并实现了从知识抽取,知识融合,知识存储到知识可视化的一系列具体方案。方法具有较高的可行性,且对于其它垂直领域有较高的普适性。
其他文献
我国煤层气资源丰富,开发利用的意义很大。我国煤层气利用率低主要是由于其中甲烷的浓缩问题没有得到有效解决。吸附法分离甲烷和氮气是一种较为经济合理的方法,目前常用的吸
心音信号是人体最重要的生理信号之一。听诊是对心脏疾病进行检测的一种重要手段,具有心电图、超声心电图不可取代的优势。但是传统的心音听诊器存在多方面的不足,从而阻碍了
随着电子行业的快速发展,微电子系统进一步集成化,传统的散热方式,换热能力已达极限,使电子行业的发展陷入瓶颈。本文针对小空间高热流密度的散热问题,试图寻找一种新的解决
电梯作为机电一体化设备,是楼宇自动化的重要组成部分,在高层建筑运输中起着重要的作用,因此其运行状态和故障情况的监控成为电梯管理、维护和安全运行的迫切需要。目前,电梯
分析住房需求的影响因素和发展趋势是把握房地产市场未来走势的关键。一般来说,住房需求与经济、人口、政策、城市化水平和市场预期息息相关。文章从以上五个方面分析了我国
本文分析了无线网络维护管理的特征和发展趋势,探索通过人工智能的方式解决海量数据分析的困难,提出了通过VBA、即时通讯交互软件的智能化落地方案,实现无线网络维护管理中的
运用评段制落实写字教学,既巩固写字教学的基础地位,又合乎"面向全体,鼓励拔尖"的目标。评段教学具有以下优点:1.面向全体,学生可以人人参加。2.导向明确。段位的设立,既为教
根据非相对论加相对论修正的原子能量表达式,结合实验能级拟合方法计算Sm原子的精细结构能级。对于基组态[Xe]4f^66s^2的能级,通过对比不同拟合计算结果与实验值,得到各参量
目的研究采用睡眠干预这个方法对老年难治性高血压患者血压控制的影响。方法选择2013年2月~2014年3月就诊的老年难治性高血压患者148例,随机分为观察组(73例)和对照组(75例),
"机械式蒸汽再压缩"蒸发器是一种新型高效节能蒸发设备,应用于含盐催化剂废水回收的蒸发脱盐法。中试实验分析得到,电耗约为45.6kW/t(净化水),MVR热泵蒸发结晶系统净化水的TD