知识增强的RDF数据到文本生成研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:h462r5134dg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RDF数据到文本生成(RDF-to-Text Generation)旨在为一组结构化的RDF三元组数据自动生成描述其重要内容的非结构化文本,它能为基于知识图谱的自然语言处理应用提供帮助。现有方法大多将该任务视为序列到序列问题和图到序列问题。然而,将RDF三元组转换为序列形式易丢失三元组内部或三元组之间的重要结构信息或关系信息,同时单一的图编码器难以全面地学习到RDF三元组中的全局语义信息,使得生成的描述文本中存在如重要信息缺失、实体指代不明、文本表达冗余等问题。针对这些问题,一方面本文通过融合多种不同类型的编码器来编码RDF三元组,并通过知识增强的方法进一步提升模型的性能。另一方面本文采用知识增强的预训练语言模型,以此提升模型生成描述文本的质量。本文的主要研究工作如下:第一,本文提出了一种新的基于图增强神经网络模型的方法,简称G2T,该方法采用多种不同类型的编码器从不同角度对RDF三元组进行联合学习,它主要包括两个图编码器GTE、GCN和一个序列编码器TSE。其中,图编码器GTE和GCN旨在实现将原始RDF三元组转化为不同图结构后的多视角互补表示,序列编码器TSE则用于编码序列化后的RDF三元组,采取上述联合编码策略可充分利用三元组内部的局部信息和全局信息。另外,为了改善三元组自身信息稀疏或背景知识缺失的不足,本文还进一步融合了 Wikidata、DBpedia等外部多源知识用于增强对三元组的内容理解及引导生成。在WebNLG 2017数据集上的实验结果显示:本文所提方法在自动评价指标及人工评价中均显著优于参与比较的所有基线方法,从而证明了本文提出方法的可行性和有效性。第二,本文提出了基于两阶段知识增强的预训练语言模型方法T5+KEP+KEG。具体而言,在第一阶段预训练过程中引入与RDF数据主题相关的大规模语料信息,让预训练语言模型更好地适应RDF数据到文本生成的任务,即基于知识增强的预训练。第二阶段,在WebNLG数据中融合与其主题高度相关的Wikidata三元组,用于补充原RDF数据中缺少的常识知识和信息,即基于知识增强的文本生成。通过两阶段的知识增强过程,一方面能够让预训练语言模型更好地挖掘和利用RDF三元组数据,另一方面能够补充原RDF三元组中缺失的关键信息。在WebNLG 2017数据集上的实验结果和人工评价结果证明了该方法的有效性。
其他文献
说起应用题,我们都很熟悉,也都知道它很重要,它在初中数学教学中处于关键位置。应用能力也是初中数学教学的一个重要的目的。然而在现实的应用题教与学的环境中,我们能够看到很多学生都会在解题过程中由于审题不认真而使自己解题出现问题,并且在这个过程中学生的自信心也逐渐丧失,所以如果我们在实际的教学过程中,重视应用题审题的话,学生的正确率肯定会提高,自信心也会增强。笔者在研究中首先用文献法来进行研究,笔者首先
学位
试验是人们认识世界的重要方法,在社会生产和科学研究中都发挥着不可替代的作用.在试验设计中,均匀设计作为一种稳健的空间填充设计方法,追求将所有试验点均匀散布到整个试验区域,以获得最好的空间代表性,因此自提出以来在传统物理试验以及计算机试验中都得到了广泛的应用.为度量试验点在试验区域内的均匀性,许多均匀性测度被提出,其中最为常用的是由广义星偏差改良而来的广义L2-偏差,按照具体定义方式的不同,广义L2
学位
我国在《中国教育现代化2035》中指出“要加强创新人才特别是拔尖创新人才的培养,加大应用型、复合型、技术技能型人才培养比重”.这也给中国的人才培养指明了发展方向.在这样的时代背景下,社会提倡多元化发展,学生需要从单一学科的学习转变为跨学科学习成为未来教育发展的主流方向,而STEAM教育能够将众多学科整合到一起,重视学生综合实践能力培养的特点与我国现阶段人才培养需求不谋而合.基于以上时代背景,STE
学位
随着全球对疫苗需求的增加与生物技术水平的不断提升,疫苗已成为推动全球医药市场发展不可或缺的力量,是人类自我保护的重要基础。然而,目前现有的疫苗供应管理大多是以中央机构(CA)的集中方式建立,这种方法在网络中的通信与存储方面会产生大量的开销。同时,在疫苗供应管理中,疫苗数据的真实性、完整性、隐私性等问题依然普遍存在。因此研究一种去中心化监管、数据不可篡改或伪造的疫苗供应管理溯源方案是至关重要的。针对
学位
高炉冶炼在钢铁行业中占有举足轻重的地位,其正常运转直接关系到整个钢铁生产过程的健康发展。文章通过对高炉常见的故障和解决方法的研究,对目前的故障诊断状况进行了分析,并建立了故障诊断系统,并对故障处理给出了建议。
期刊
单细胞RNA测序技术在最近几年迅速发展,成为生命科学研究的焦点。如今,单细胞测序技术一次能测量成千上万个基因的表达量。然而因技术限制,在测量基因表达量之前,组织细胞需被解离成单个细胞,使得数据丢失了细胞的空间位置信息。随着科技的发展,新的空间转录组测序技术被提出。空间转录组测序技术能够测量细胞的基因表达量,同时保留细胞的空间位置信息。然而空间转录组测序技术一次只能测量几十到几百的基因,或者测序灵敏
学位
空间转录测序技术不仅可以获得细胞中基因表达计数矩阵,同时保留组织内细胞的空间坐标,有助于阐明细胞环境和基因表达之间的相互作用。利用细胞的空间位置信息探索基因的空间表达模式,寻找不同表达模式下的基因生物学功能有无差异,是研究复杂组织的空间转录现象的第一步。虽然已经有很多学者提出了寻找具有空间表达模式基因的算法,但是一方面大规模空间转录数据是稀疏计数形式存储,在参数建模方面仍然具有挑战性,会引起算法稳
学位
随着大数据时代的到来,互联网上充斥着大量的非结构化文本信息,文本分类及其情感分析方法旨在挖掘文本的类别和情感等属性知识,用以帮助人们充分利用这些信息资源,这也是当前研究者们所关注的热门问题之一。传统的机器学习方法通过人工构建特征进行文本分类和情感分析研究。但是,这些方法的效果过于依赖所构建特征的好坏,而随着数据的爆炸式增长,特征构造也会消耗大量的人力成本,且许多特征在新场景下难以复用。随着深度神经
学位
向量是连接代数和几何的桥梁,它可以帮助学生理解数学的内涵和本质,十分重要。作为高中数学教师,应该关注学生的学习实际,调整教学方法,优化教学策略。本文通过对调查问卷数据统计与处理,分析教师在向量教学中遇到的问题,探究学生在运用向量解题过程中出现的困难,最后提出了向量的教学策略,并设计教学案例。同时针对笔者所在学校高中学生的学习特点和反馈情况提出了教学实施策略,希望对今后的向量教学有所帮助。本文首先讲
学位
尽管城乡建设领域的绿色低碳技术路径是全面而广泛的,但是不同空间基础、不同功能定位的绿色低碳城区建设的技术重点却呈现出明显差异。自然基础条件、人口构成特点、城市建设阶段、经济发展水平是影响绿色低碳城区建设的重要因素,因此文章提出因地、因人、因时、因财“四因制宜”的绿色低碳城区建设技术路径,并以某粤港融合片区为例,构建基于岭南特色、粤港融合、青年友好、无界社区、城市建设初期、产业导入旺期、更高经济发展
期刊