面向不同语义粒度约束的文本生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shuilinxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着深度学习模型的快速发展,与文本生成相关的研究工作日渐增多,并取得了突破性进展。文本生成方法也在越来越多的任务场景中得到应用,所带来的实际价值日益凸显。但在面对不同粒度的语义约束时文本生成仍面临如下挑战:(1)在基于词的离散语义约束下,如何处理离散词与生成目标之间存在一对多的映射关系;(2)在融合词间关系的结构化语义约束下,如何在生成模型中对词间的结构化关系进行表示;(3)在基于短文本的语句级语义约束下,如何保证源语句与生成目标之间的语义一致性;(4)在基于长文本的篇章级语义约束下,如何实现生成目标与长文本片段之间的语义关联。本文围绕上述问题开展研究工作,主要研究内容包括以下四个方面:第一,针对离散语义在文本生成过程中的多样化表示问题,进行了基于离散语义约束的多样化问题生成方法研究。该方法首先采用Transformer作为主体框架,其次在编码时将已生成的历史问题与离散词信息进行拼接共同作为输入,既可以保证生成的问题不偏离主题又可以使得当前生成的问题与历史问题有足够的区分度,最后在解码时引入可训练的控制信号对每一类问题的公共特征进行表征学习,进一步确保了生成问题的多样性。以百度知道为来源构建任务数据集并进行验证。实验结果表明,本文提出的方法在相关性和多样性两项指标上均明显优于其他基线方法,展示了历史信息和控制信号对模型性能的提升作用。第二,针对结构化语义关系在文本生成模型中的表示学习问题,进行了基于结构化语义约束的文本生成方法研究。该方法首先采用基于门控循环单元的双向编码器对离散的主题词进行编码,其次采用基于多头自注意力机制的编码器对知识图谱进行编码,并将节点的邻接关系纳入到注意力机制的运算当中,使得实体之间的关联关系更加明确,最后将主题词和知识图谱表示共同输入到解码器中进行文本生成。以中文医学文献为基础构建任务数据集并进行验证。实验结果表明,使用医学知识可以有效帮助文本生成模型提高性能,并验证了对知识图谱整体结构进行建模可以进一步增强模型性能。第三,针对语句级语义表示与生成目标之间的语义一致性问题,进行了基于语句级语义约束的查询语句生成方法研究。该方法首先对给定的输入文本进行实体链接并采用预训练语言模型进行编码,其次按照查询语句的结构特性将文本问题解码成对应的抽象语法树作为中间表示,最后根据语法规则将中间表示转换成可执行的查询语句。在公开的医学文本到查询语句数据集上进行验证。实验结果表明,在包括逻辑形式、执行准确率等各项指标上,本文提出的方法均远远优于其他基线方法,验证了实体链接和抽象语法树在保持语义一致方面的有效性。第四,针对篇章级语义表示与生成目标之间的语义推理问题,进行了基于篇章级语义约束的复杂问题生成方法研究。该方法首先采用基于门控选择机制的编码器对给定长文本以及答案分别进行编码,其次根据正确答案使用预训练模型对问题意图进行预测并将意图表示作为解码器的初始化表示,最后通过使用注意力机制将长文本和答案进行融合共同用于生成问题。在公开的机器阅读理解数据集上进行验证。实验结果表明,在各项评价指标上,本文提出的方法均高于其他基线方法,验证了意图信息可以有效地增强生成问题与长文本之间的语义关联。综上所述,本文对不同语义粒度约束的文本生成方法进行了深入研究和讨论,并针对其中的关键问题,分别提出了基于离散词的多样化问题生成方法,基于知识图谱的文本生成方法,面向短文本的查询语句生成方法以及面向长文本的复杂问题生成方法。通过进行大量实验和分析,在对应数据集上进行了验证,最终所有提出的方法均获得了不错的表现。
其他文献
汽车悬架系统是连接车身与车轮弹性装置的统称,随着汽车工业技术不断发展,主动悬架系统因其优越的衰减车身振动性能,成为汽车悬架系统的发展趋势。然而,由于主动悬架系统结构设计复杂且包含多个执行机构与多种类型传感器,系统机械结构与元器件由于长时间使用或老化易发生故障,降低了主动悬架系统甚至整车的控制性能、可靠性与安全性。主动悬架的可靠性问题是限制主动悬架广泛普及的重要因素之一。因此,关于主动悬架系统故障诊
学位
采用正交层板胶合木(CLT)制作楼、屋盖构件和剪力墙的多、高层木结构称为正交层板胶合木结构。正交层板胶合木及结构体系的研发可追溯到20世纪90年代,本世纪第二个10年中期始纳入各国木结构设计标准,也包括我国木结构设计标准GB 50005—2017。正交层板胶合木组坯方式多变,其层板的材质等级、层板的几何尺寸和层数的选择自由程度很高,因此正交层板胶合木构件和连接的承载力和刚度计算较均质材料是更为复杂
学位
随着物联网快速发展,传统地面网络难以满足未来物联网的全球广域接入需求。低轨卫星网络具有可全球覆盖、低传播时延和低成本的优势,以低轨卫星网络作为地面网络的补充,构建低轨卫星物联网,实现全球万物互联互通是必然趋势。然而,由于低轨卫星网络星地链路受多径衰落、多普勒频移等影响,以及星地网络的频谱资源的限制,对低轨卫星网络星地链路的多址接入方法、译码方法、信道建模等方面提出更高的要求。本文以低轨卫星物联网为
学位
斜拉桥索(以下简称为斜拉索)是风敏感结构,涡激振动、干索驰振、风雨激振等典型斜拉索风致振动可引发结构疲劳损伤甚至直接破坏,影响结构安全与使用寿命。流动控制是提高斜拉索抗风性能的重要手段。传统的流动控制措施通常产生于对斜拉索二维流场机制的探讨,缺乏对斜拉索绕流场三维流动特征的分析。而控制高效、装置简单且成本低廉的斜拉索风致振动三维流动控制方法的提出有赖于斜拉索三维流场的流动机制研究。因此,本文以掌握
学位
数据,作为新一代生产要素,已成为各个企业和国家具有战略价值的重要资产。由于数据只有流动与共享才能更为充分地发挥其价值,寻求跨企业、行业、领域的多方数据合作计算,已成为当前企业的刚性需求。但数据价值的重要性愈加凸显,这种合作计算模式引发的数据泄漏与滥用所导致的负面影响和经济损失也越大。因此,如何实现多方数据的安全合作计算成为亟待解决的重要问题。利用安全多方计算技术,构造安全多方计算通用协议,以实现任
学位
波纹钢结构具有施工速度快、工程造价低、耐久性好等优势,在公路管涵、隧道、综合管廊和防护工程中得到广泛应用。其中,综合管廊、地下隧道等应用场景为充分利用空间,更适合使用浅拱形(矢跨比小于1/5的拱)波纹钢结构。随着结构逐渐向大跨度、高负荷方向发展,现有波纹钢结构的稳定问题逐渐突出,在承受较大荷载时可能发生结构失稳。本文提出了一种波纹钢-钢筋混凝土组合浅拱构件,其截面刚度大幅提高,可有效改善波纹钢结构
学位
近年来,尤其伦敦千禧桥事件之后,人与结构相互作用(Human-structure interaction,HSI)问题引起研究者的广泛关注。在该事件中,人群步行导致的桥面大幅度振动造成人群恐慌。许多学校建筑在汶川地震中发生严重损伤甚至倒塌,其时正值学生位于教室,人群荷载大,这引起了对紧急疏散行为在结构失效中所起作用的关注。为量化评价人与结构相互作用的影响,本文提出了适用于大幅度振动环境下奔跑和步行
学位
膜结构由于其新颖多姿的外表形式和清晰高效的传力方式,近年来得到越来越广泛的应用。但是在膜材的制造、运输、安装和使用过程中,不可避免地会出现初始缺陷,而缺陷附近的应力集中使得膜结构在低应力水平下就可能发生撕裂破坏,因而撕裂破坏是膜结构的主要破坏模式,膜材的抗撕裂性能对于膜结构的整体安全性至关重要。然而,由于对膜材撕裂机理的认识还不够深刻,各国的膜结构设计规范都没有关于膜材抗撕裂性能的规定条文,目前的
学位
应变硬化纤维增强水泥基复合材料(Strain Hardening Cementitious Composites,SHCC)是一种具有超高韧性的纤维增强水泥基复合材料,这种材料在承受荷载后会表现出独特的多缝开裂的破坏模式,因而具有了优异的变形及能量吸收能力,同时可控制的裂缝宽度使其获得了远超普通混凝土的耐久性能。因此,SHCC广泛应用于建筑结构工程,道路工程,水利工程,军事防护等诸多领域。随着科技
学位
关系图是指数据对象之间存在拓扑结构的数据,通常这样的数据对象也称为节点,拓扑结构则称为关系。随着计算机科学与互联网的快速发展,蕴含内在联系的关系图数据普遍存在。例如,社交网络中用户与用户之间存在好友关系、物理系统中研究对象之间具有内在联系、蛋白质之间的交互网络、语义网络中的知识图谱和许多其他领域数据。将数据对象抽象为节点,利用关系图刻画不同数据对象之间的联系,可以帮助人们更方便地理解数据的内在含义
学位