基于知识增强的实体关系抽取方法

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 0次 | 上传用户:jnfxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络信息正呈现出爆炸式增长的趋势,许多有用信息蕴含在其中,依靠人工筛选编辑知识的方式已无法满足处理海量文本数据的需求。如何有效地从海量文本中自动提取结构化信息,提升人们筛选和获取信息的效率是当前亟需解决的问题。实体关系抽取技术是这一问题的有效解决方案,该任务旨在自动识别和抽取非结构化文本中的实体和实体间隐藏的语义关系。深度学习模型在实体关系抽取任务中显示出良好的性能,然而当前的实体关系抽取模型多采用管道方法或简单的联合抽取模型,忽视了实体识别和关系抽取两个子任务之间明确且必要的相互支持。同时,实体关系抽取在实际应用中存在样本数据较少、标注成本高的特点,关系模型在少样本情况下面临着训练效果差、泛化能力不足的问题。因此,针对上述问题,本文从知识增强的角度对实体关系抽取进行研究,探索了两种有效的实体关系抽取模型,通过实验验证了所提出的方法的有效性,并探究了模型的优势与不足。本文主要贡献包括:·提出基于对比教师学生学习的实体关系抽取模型。针对联合模型对实体识别和关系抽取子任务间潜在交互特征建模不足的问题,本文定义了关系抽取任务中的特权信息,提出一种对比教师学生学习框架鼓励学生模型融合两个专家教师模型的知识,增强模型生成特定的实体关系三元组所需的潜在特征。在COLIEE、ADE、Sci ERC基准数据集上的实验结果证明了所提出算法的有效性。·提出基于提示学习的少样本关系抽取模型。为了应对真实场景下训练数据不足对关系抽取模型所带来的挑战,本文利用T5模型自动生成多个提示模板,将关系抽取任务转换为基于提示学习的预测任务,提出一种模板正则化网络,利用提示信息激发预训练语言模型中的潜在知识,提升小样本关系抽取效果。在Few Rel、NYT-25数据集上的实验表明了本文所提出的模型明显优于基准模型。·构建关系抽取原型系统。基于目前互联网用户对于高效获取信息的需求,本文通过对前述算法的进行模块化封装,集成实现了关系抽取原型系统。该系统将知识增强方案应用于关系抽取中,不仅达到了良好的抽取效果,并通过可视化方式呈现出文本结构化关系,提升用户获取信息的效率。
其他文献
肥胖及其相关疾病严重影响着人们的健康和社会经济的发展。在哺乳动物体内,棕色脂肪组织(brown adipose tissue,BAT)参与能量代谢,在寒冷、应激等情况下燃烧底物,使脂肪分解产生热能,对肥胖治疗具有积极的意义。但目前在甲基化水平上,人们对棕色脂肪功能的研究尚不完全清楚。甲基化修饰是表观遗传学中调控基因表达的重要方式。N6-甲基腺嘌呤(6m A)是发现在生物中存在丰度较高且对生命过程影
学位
iASPP作为癌基因,在肿瘤研究领域涉及广泛,对细胞增殖、衰老、凋亡、均有调控,具体机制也在不断地完善;锌是生物体内一种特殊的微量金属元素,是多种酶类激活剂,参与形成蛋白质的锌指结构,也能以游离的形式,在细胞信号转导中起到重要的调控作用。为探究iASPP在肿瘤细胞中的未知功能与机制,我们尝试多种应激条件去刺激肿瘤细胞。首先,蛋白质免疫印迹实验发现氯化锌处理可以诱导多种细胞中iASPP蛋白的缓慢迁移
学位
思政课教师的责任和使命是为党育人、为国育才。当前,新时期思政课一体化建设的理论研究和实践探索更为广泛深入,积累了诸多宝贵经验。与此同时,我国仍然面临着义务教育、高中、高等教育三个学段思想政治教育缺乏系统性和整体性等现实问题。为推动思政课建设内涵式发展,着力培养担当民族复兴大任的时代新人,应发挥思想政治理论课主渠道和主阵地的作用,以大中小学思政课一体化建设提升思政育人成效。
会议
药物成瘾是一种顽固的慢性神经精神疾病,会引发一系列严重的社会问题。由于新冠肺炎(COVID-19)疫情以及各种社会经济原因,世界范围内的药物滥用问题愈发严峻,同时针对药物滥用问题的治疗方案较少,治愈相对困难。研究解决药物滥用问题对于个人健康与社会稳定具有现实意义。本文研究内容包括药物成瘾易感性研究与药物成瘾辅助治疗方式两部分。由于个体间的药物成瘾易感性存在差异,因此成瘾易感性研究对药物成瘾的神经机
学位
长链非编码RNA(Long noncoding RNAs,lnc RNAs)具有显著的组织特异性,在肿瘤的发生发展、化疗耐药,以及转移和复发中发挥着重要的作用。实验室前期利用lnc RNA表达谱芯片,比较并分析了胰腺癌获得性耐药细胞Bx PC-3-Gem与其母细胞Bx PC-3中lnc RNA及其附近的编码基因之间的表达差异,筛选出了差异倍数高的lnc RNA SLC7A1-AS1。SLC7A11
学位
目的 通过分析某三甲医院重症监护病房(ICU)的耐碳青霉烯类肺炎克雷伯菌(CRKP)的耐药基因及系统进化关系,为耐药菌防控的管理提供参考依据。方法 收集安徽医科大学第二附属医院2018年3―7月ICU住院病人分离的19株CRKP,使用VITEK-2 Compact系统进行细菌鉴定及药敏试验,应用Illumina Hiseq 2500平台进行全基因组测序(WGS),应用MLST软件测定ST型,应用K
期刊
氧化三甲胺(trimethylamine oxide,TMAO)是一种肠道微生物产生的代谢物。人们日常饮食中,蛋、奶、红肉及鱼类等富含胆碱的食物,会被肠道微生物分解代谢形成三甲胺(trimethylamine,TMA),三甲胺可以在肝脏中黄素单加氧酶3(flavin-containing monooxygenase-3,FMO3)的作用下形成TMAO。近年来有文献报道,在多个临床队列中,观察到全身
学位
新疆红色文化资源是体现中华民族凝聚力和向心力的资源,具有强大的政治价值和深厚的历史底蕴,是区域经济社会发展的文化增长点,也是深入推进文化润疆工程的重要依托。基于其在政治、经济、文化多方面的重要价值,分析其运用于新疆大中小学思政课一体化建设的现状、问题并提出有效对策十分必要。推动新疆大中小学思政课地方红色文化资源一体化建设,要通过体现层次差异、注重一体贯通及凸显理论内涵三方面让思政课“统”起来;通过
期刊
数字化视角下大中小学思政课一体化面临着课程主体缺乏多样性、课程内容缺乏层次性、课程目标缺乏针对性、课程方法缺乏创新性等现实困境。随着大数据、云计算、物联网、区块链、人工智能等新兴数字技术的蓬勃发展,数字化对大中小学思政课一体化建设的主体、内容、目标、方法也提出了新的要求。数字化视角下大中小思政课一体化建设可从制度化建设入手,完善课程主体专职为主多方参与机制,健全课程内容层次分明衔接有序机制,完善课
期刊
随着人工智能和机器人技术的发展,机器人以较低的成本和较高的自由度开始在在搜索救援,物流,仓储等场景占据一席之地。新时代也对机器人的运动提出了更高的要求,如何在众多的运动物体的场景中合理的规划出安全路径的问题是对当前移动机器人面临的一大挑战。以往,在面对物体碰撞时算法的要求是保持静止,以避免主动碰撞物体。而在动态场景中只要发生碰撞就会带来严重的后果,如在自动驾驶中,车祸的发生带来的后果都是无法承受的
学位