知识库构建中的关键技术研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:foxylxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识库可用于描述现实世界中的实体、概念、属性以及它们之间的关系,通常以图关系网络的形式进行构建。随着互联网信息时代的兴起,知识库已经在智能搜索、智能问答以及个性化推荐等领域发挥了重要作用,也成为了各大企业与研究机构的热门研究话题。早期的知识库完全由领域专家人工构建,这种方式已经无法适应大数据时代不断涌现的需求。然而,由于任务的多样性,自然语言的复杂性以及数据的差异性,基于信息抽取技术的知识库构建方法性能受限于高质量标注数据的获取,在标注资源匮乏或数据噪声较大的领域仍难以应用。因此,如何从标注资源匮乏的非结构化文本中快速构建知识库成为了一个亟需解决的研究课题。针对上述问题,本文着手于知识库构建中的三个关键技术,即命名实体识别、实体关系抽取和知识库表示学习,旨在研究如何从资源匮乏的非结构化文本中快速构建大规模应用知识库。具体而言,本文的研究工作主要分为以下三个部分:对于命名实体识别子任务,本文提出了基于主动学习和自训练的弱监督实体识别方法。该方法将多标准的主动学习采样策略与自训练方式有效结合,降低了人工标注数据工作量。同时,该方法利用预训练语言模型强大的表征能力,允许模型在完全无监督数据的情况下进行冷启动训练,进一步降低了对标注数据的依赖。对于实体关系抽取子任务,本文提出了结合空洞卷积和软实体类型约束的关系抽取方法。该方法利用空洞卷积网络作为文本编码器,在捕获长距离依赖关系的同时保持高效的运算效率。同时,该方法还以多任务学习的方式将实体类型约束引入到注意力机制中,通过显式考虑外部知识中的噪声学习到更加准确的注意力权重。对于知识库表示学习子任务,本文提出了基于图卷积和层次关系嵌入的知识库表示学习方法。该方法设计了基于图卷积网络的知识库表示学习架构,充分利用三元组之间的依赖关系同时编码实体向量和关系向量。此外,该方法还提出了全局关系嵌入与局部关系嵌入相结合的方式,利用局部关系嵌入学习到的边结构信息进一步引导实体和关系的表示学习。在多个公开数据集上的大量实验表明,本文针对上述知识库构建中的三个关键技术所做的研究工作能够有效降低对标注数据的依赖,提高对噪声数据的鲁棒性,并获得更加准确的表示学习结果,进而有效提升基于非结构化文本的知识库的快速构建与应用落地。
其他文献
目的:对比分析社区老年慢性支气管炎患者分别采用左氧氟沙星与阿奇霉素治疗的效果。方法:将56例老年慢性支气管炎患者随机均分成观察组(给予左氧氟沙星治疗)和对照组(给予阿奇霉素治疗),各28例,比较两组疗效。结果:在治疗总有效率方面,观察组的97.5%与对照组的95.0%相比差异无统计学意义(P>0.05)。观察组患者发热、咳嗽、呼吸困难各症状的缓解时间明显短于对照组患者对应症状的缓解时间,且与对照组
期刊
随着“三孩”政策的逐步推进以及人口老龄化形势的日趋严峻,家政服务业在养老、托育等社会服务领域发挥着重要的作用。为推动我国家政服务业规范、高质量、可持续的发展,解决当前家政服务业市场信息共享不足、虚假宣传,失信频发等问题。本文结合区块链技术的去中心化、分布式储存、智能合约等特性,分析家政服务信用体系构建与区块链技术的契合性;基于区块链数据层、网络层、共识层、应用层四个层次,构建基于区块链技术的家政服
期刊
随着互联网技术的发展和工业技术的升级,以德国工业4.0变革和美国工业互联网为代表的制造业发达国家的工业制造技术迅速发展。我国作为工业制造大国,制定了《中国制造2025》计划以改革推动制造业发展,在制造业领域中,无论大到航空航天领域,汽车加工制造,还是日常使用零部件的生产都离不开数控机床刀具加工。所以,对于机床加工中制造业刀具数据的有效管理对智能制造业的发展显得尤为重要。现有的刀具数据管理方案存在以
学位
逆色调映射是指从一张普通低动态范围(Low Dynamic Range,LDR)的数字图像恢复出其高动态范围(High Dynamic Range,HDR)图像的过程,HDR图像能够更加真实地表示场景的光照信息,并呈现更好的视觉效果.然而获取HDR图像需要较复杂的步骤以及专业的技术,研究逆色调映射技术将能够有效解决HDR图像难以获取的问题.逆色调映射是一个非适定的问题,传统的数字图像处理方法无法较
学位
在数据量极速增长的今天,人们总是要面对各种各样的数据集。在这其中,不平衡数据集占据了绝大多数,不平衡数据集是指数据集内部各个类别所包含数据样本各不相同,其中包含绝大多数数据样本的类别称之为主要类,与之相反的则是包含极少数数据样本的稀有类。但是,与主要类相比,我们往往对稀有类中的数据对象更加感兴趣。因为这些稀少的数据样本的行为更具有研究性,比如海量线上交易数据里潜藏的少量违法交易行为,众多网络访问记
学位
近年来,我国冬麦区干旱、高温等多种逆境频发,小麦产量和品质受到显著影响。本研究对小麦在干旱、高温及其互作胁迫下的响应进行分析,以期为优质小麦品种抗旱改良和栽培技术集成提供一定理论依据。本试验于2017-2019年在陕西杨凌西北农林科技大学南校区温室和农业农村部西北地区小麦生物学与遗传育种重点实验室进行,以大面积推广种植的优质强筋早熟多抗小麦西农979为材料,分析灌浆期不同阶段干旱、高温及其互作胁迫
学位
马铃薯是世界第四大粮食作物,仅处在水稻、小麦和玉米之后,中国北方干旱少雨地区是其主产区,特别是在陕甘宁地区,马铃薯种植面积占据较大比重。因这部分地区干旱问题较为严重,降水不均,为了有利于土壤水分的保持,农学家们结合地方实际开发出一种“早覆膜—膜上穴播”种植模式,能够真正满足地方发展需求,根据实践情况来看,该种植方法展现出了极其良好的效果。本文通过全面分析种植模式,把农机和农艺两方面融为一体,在本团
学位
当归补血汤(DGBXD)在抗肿瘤治疗中具有一定疗效。当归多糖(ASP)和黄芪甲苷(AST)是其药效成分之一。传统制剂常因患者依从性差、药物的疏水性及无选择性分布等原因而影响药效。为了克服上述不足,本课题以ASP为载体包载疏水性药物AST,制备用于抗肿瘤治疗的ASP-AST-磁性纳米粒(MNP)即ASP-AST-MNP。探讨中药多组分协同作用的载药纳米粒的制备,并通过体外细胞实验,对其体外抗乳腺癌(
学位
匾额历史悠久,是中国传统文化中不可缺少的一部分,影响了各个地区历史时代的文化内涵和社会风气。匾额主要以木质为主,通过实地调研和文献资料的分析发现,经过长时间风吹雨淋,地仗层起翘和剥离是木质匾额最常见的病害之一,因此如何修复这些病害,是匾额本体保护面临的重要任务。针对上面的问题将通过对匾额文物的观察以及文献材料的分析,制备模拟样品,比较常用的几种胶黏剂的基本性能,使之更好的运用在匾额地仗修复中。主要
学位
我国矿产资源丰富,针对各种矿产资源的开发利用是推动社会经济快速发展的重要基础。在科技快速发展的推动下,矿产选矿技术和工艺方法也得到了不断的进步与完善。借助更加先进和完善的矿产选矿技术和工艺方法,可以在很大程度上提升矿产资源的开发效率,同时对于提升矿产的产能也具有十分重要的意义。因此要注重对矿产选矿技术和工艺方法的研发与应用,借助新技术与新工艺保障矿产资源的高效开发。
期刊