基于信息抽取的知识图谱构建系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hzn_arm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的深入发展,日常生活中产生的数据总量迅速增多,人们对于信息获取的速度和搜索的效率开始有了更高的要求。但是原有的知识语义网无法清晰地表示出节点之间的关系,难以快速地找到目标内容。谷歌在2012年提出了知识图谱这种信息表示模型,将信息中的主实体、客实体映射为图谱里的节点,将关系映射为边。这样既能适应于不同领域,又能帮助人们快速的找出关联信息,所以构建知识图谱对于知识的传播有着积极的推动作用。对于知识图谱的构建而言,三元组的抽取是最核心的环节,因此本文在调研现有三元组抽取和知识图谱构建系统的基础上,提出了三元组自动抽取的模型和构建系统的设计方案,论文的主要贡献为:1.在实体关系三元组抽取中,提出了基于权重指针网络的抽取模型,在卷积网络的基础上采用不同尺度的空洞卷积核结构,通过权重指针网络对重复出现的实体进行筛选,从整体的角度对于多组不同长度的实体进行标注。在SKE和CHIP数据集上进行模型的检验,结果表明该模型比当前主流的BI-LSTM+Attention模型提升了 1.8%左右。2.在事件主体三元组抽取中,提出了基于多头注意力机制的抽取模型,在Bi-LSTM网络中融入了多头注意力机制,获取词语的不同语义信息,通过嵌入触发词特征来定位事件中心短语。将本文的方法在CCKS和iFLYTEK数据集中进行验证,结果表明本文的模型给予了核心实体更多的关注,比起CNN+CRF的主流结构提升了 1.5%左右。3.提出了知识图谱构建系统的整体架构,设计并实现了文本上传、三元组抽取、知识图谱生成和知识图谱管理等全方位的解决方案,使用了 Flask作为后端框架,以Neo4j和MySQL作为数据库管理系统。经过系统测试后证明系统中的服务具备较高的可行性和稳定性,可以面向多种行业和不同知识水平的用户群体。
其他文献
以无人机和通信卫星为载体的空天网络作为5G以及下一代移动通信网络的重要组成部分,直接影响着未来网络的服务能力和复杂业务的承载能力。本文着眼于无人机和通信卫星两个非地面网络载体,利用移动边缘计算(Mobile Edge Computing,MEC)技术,分别设计针对不同业务场景的数据管控方案,其中包括无人机计算密集型业务中对地的高效数据卸载、卫星链路下大带宽业务数据的智能缓存和推送等具体内容,从而解
为明确酒钢煤基氢冶金绿色短流程制钢新工艺核心技术实施可行性,进行了煤基氢冶金金属料的干选、熔分等实验室试验研究,产出了含铁率96.71%的铁水,掌握了新工艺中P、S等关键元素的走向,可为新工艺路线的优化和产业化研究提供数据支持.