面向复杂语义环境下重叠关系的知识抽取系统设计与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:getu0217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识抽取是构建知识图谱的关键步骤,其研究难点在于理解无结构化的自然语言文本,从中抽取出结构化的关系三元组知识。然而,现有知识抽取方法难以解决复杂语义环境下的关系重叠问题,导致在实际应用中有许多不足之处。为了解决上述问题,本文以一种全新视角来重新审视经典的关系三元组抽取任务。通过对关系三元组的数据似然进行原理性推导,首次提出将关系建模为从主语实体映射到宾语实体的函数,并基于预训练语言模型BERT实现了一个不受关系重叠问题干扰的级联知识抽取框架Cas Rel,为知识图谱研究社区提供了一种高效的知识抽取范式。我们在6个基准数据集上使用多种评价标准验证了所提出方法的有效性与广泛适用性。实验结果显示,我们的方法在多个场景下均大幅改善了关系三元组抽取的性能,尤其在现有方法难以解决的关系重叠问题上取得了令人惊讶的突破性进展,在NYT和Web NLG数据集上分别将当前的最佳水平F1值从72.1%提高到了89.6%、从61.6%提高到了91.8%,能够有效保证在复杂语境下实现高精度知识抽取。本工作中所实现的知识抽取系统已开源,可在https://github.com/weizhepei/Cas Rel公开获取代码。
其他文献
特征选择是特征工程中的一个重要问题,是缓解“维数诅咒”的有效方法。随着大规模数据在各个领域的不断涌现,如何从高维数据中快速有效地识别关键特征,对鲁棒模型的构建,以及进一步从关键特征中发掘出隐藏信息,有着重要的社会价值和现实意义。本文的主要贡献在于针对特征选择问题改进差分进化算法和灰狼优化器,为缓解“维数诅咒”困境提供新模型、新方法。具体地,一种基于自适应机制的加权差分进化算法(Sa WDE)被提出
学位
嵌合酶是指由两种或两种以上酶的不同功能片段融合而成并呈现出新催化特性的酶分子。其出现及其相关技术的发展为酶工程的研究和应用提供了新策略。利用蛋白质工程技术构建嵌合酶来实现酶的底物选择偏好性改变一直是科学研究热点。基于此,本研究以Rhizomucor miehei来源的脂肪酶RML为研究对象,与实验室前期研究已挖掘出具有磷脂酶活力调控功能的蛋白元件嵌合,构建系列新型嵌合脂解酶,开展其酶学性质表征研究
学位
多智能体系统对解决分布式问题具有灵活性和智能性的特点,并且在仓库管理、自治交通工具、机器人、物流交付等多个领域有着广泛应用。多智能体路径规划是多智能体系统的核心问题,研究多智能体路径规划问题,可以提高多智能体系统的运行效率,同时对多智能体系统所应用的领域的发展有着深远影响和积极意义。虽然目前的多智能体路径规划方法已经取得不错的成果,然而,由于规划空间过于复杂,现有的方法将规划空间采样成为参考点或者
学位
赶黄草(Penthorum chinense Pursh),又名扯根菜,是虎耳草科扯根菜属植物,其富含黄酮类、萜类、多酚类、木脂素类、有机酸类等活性成分。现代药理学研究表明,赶黄草具有抗氧化、护肝利胆、抗病毒、抗肿瘤、抗炎、降血脂等多种生物活性。目前鲜有针对赶黄草不同地上部分的活性物质的对比研究,因此本文以赶黄草花总黄酮(H-Fla)、赶黄草叶总黄酮(Y-Fla)为研究对象,对其进行了提取工艺优化
学位
RNA结合蛋白(RNA-binding proteins,RBPs)是一类与RNA调节和代谢相关的蛋白质,在RNA成熟、转运、定位和翻译过程中起着重要作用。然而,生物实验性的全基因组RNA结合检测方法成本高且耗时。因此,迫切需要一种高效、快速的方法来利用从现有标注知识中学习到序列模式来预测RBP结合位点。由于紫外交联免疫沉淀结合高通量测序(CLIP-seq)的快速发展,积累了大量关于RNA分子与R
学位
单氯丙醇酯(monochloropropandiol esters,MCPDE)包括3-氯丙醇酯(3-monochloropropandiol esters,3-MCPDE)和2-氯丙醇酯(2-monochloropropandiol esters,2-MCPDE),与缩水甘油酯(glycidyl esters,GE)类物质是动植物油脂高热加工和食品烘焙、煎炸等热加工过程中常见有害物质。烘焙食品加
学位
菠萝作为世界著名的热带水果,被广泛应用于日常消费和深加工,但在这些过程中会产生大量的废弃余渣,如果不加以合理利用,会造成资源浪费和环境污染。然而,对于菠萝余渣纤维素进行高值化利用的相关报道较少。纤维素作为自然界中最丰富的一种多糖,约占菠萝加工余渣比重的40%,具有较大的提取和利用价值。纤维素纳米晶作为纤维素的衍生物,表现出极佳的力学性能、阻隔性能、表面活性和无毒性,在聚合物材料领域具有广泛的应用前
学位
机器人广泛应用于现代工业社会的各个领域,其中多模块机器人因其优秀的多任务多地形复杂场景适应性而受到广泛关注。多模块机器人的优势主要来自于其构型可以自由变化以及灵活的运动方式,研究者们通过良好的重构规划策略实现这些优势,而重构规划的关键技术包括构型选择和运动规划。另外,多模块机器人的各个模块都有着相对独立的感知能力和运动能力,在复杂地形场景下完成各类任务的过程中,规划策略应该在一定程度上保证其各个模
学位
强化学习是机器学习领域一种非常成功的学习范式,如今在实际应用中体现出来巨大的价值,如棋类与游戏博弈、机器人控制、自动驾驶、生物制药等。值方法和策略优化是强化学习的两种主要方法。通用函数近似和自博弈训练范式的结合在值方法强化学习方面取得了巨大的成功。然而,这种组合的理论保证,如样本复杂度的上界,仍然尚不完整。另外,为了更好地理解策略优化算法及其学习理论,策略优化被发现可以看作是概率测度空间中的最优传
学位
利用脂肪酸脱羧制备烃类生物燃料是开发可再生能源的有效途径。相比于传统化学方法,生物酶法具备高效、低能耗及环境友好等优势,更具有工业化应用前景。光脱羧酶(Fatty acid photodecarboxylase,FAP)是一类专一性强、催化效率高、催化过程无需额外添加昂贵辅因子,仅需利用蓝光即可将脂肪酸转化为烷(烯)烃的光驱动酶,在烃类生物燃料的高效可持续生物合成领域具有显著应用潜能。目前仅有偏好
学位