结合篇章信息的生成式摘要研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:stchd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文摘作为自然语言处理领域的一个重要研究方向,其能够从海量数据中快速筛选出有效信息而得到了广泛的应用。传统的自动文摘研究方法主要集中于探究如何构建模型来优化文本的语义表示,而忽略了篇章信息对于文摘任务的影响。文本不是简单堆叠而成的文字序列,而是相互关联的语义单元衔接而成。为了充分利用文本的篇章结构特征,本文开展了结合篇章信息的生成式摘要研究,主要内容可分为如下三个方面:首先,针对浅层篇章结构对摘要生成的影响,本文提出了一种基于浅层篇章信息的生成式摘要方法,该方法在循环神经网络的基础上添加了图卷积神经网络对文本进行编码,并依据语言学常识去构建句子序列的图结构矩阵,以获取更具篇章结构信息的语义表示。此外,在该方法中使用了一种融合层,旨在使模型在解码时依旧能够关注于循环神经网络获取的线性语义特征。在解码器上还使用了多头注意力机制,以提高生成摘要的质量。实验结果显示,该方法与一些主流的生成式摘要模型相比,所生成的摘要在ROUGE评测的各项指标上均有显著提升。其次,基于篇章修辞结构对于摘要生成的影响,本文提出了一种基于篇章修辞结构的生成式摘要方法,该方法首先使用连接词识别工具快速锁定文本中存在的语义连接词,继而依据篇章修辞结构理论对连接词两端的子句进行关系判别,然后在编码端使用图卷积网络,在构建其邻接矩阵时将相应的篇章关系特征融入到模型中。实验结果显示,该方法能够较好地将篇章关系信息融入到文本编码表征中,并大幅度提升了系统的性能,提高了生成摘要的质量。最后,针对篇章修辞结构在文本中缺失的问题,本文提出了一种基于篇章结构解析的生成式摘要方法,该方法将篇章关系解析和文本摘要这两个任务联合在一起训练学习。针对缺乏篇章和文摘一体的语料库这一问题,该方法在文摘数据集上使用了篇章解析工具,以获取每一个文本样例的篇章结构树,进而提取出关系对和核性等特征作为篇章关系解析任务的输出标准。首先,对文本进行语义单元划分,利用篇章关系解析模型预测出关系分类;然后,将预测出的篇章关系信息融入文本摘要模型中,以辅助摘要的生成。实验结果显示,该方法所预测出的篇章关系有着可观的准确率,并且生成的摘要具有很高的概括性和可读性。
其他文献
目的:回顾性收集胎龄<32周的早产儿临床资料,探讨早产儿支气管肺发育不良(bronchopulmonary dysplasia,BPD)的临床特点。并分析患儿出生24小时内、生后72小时、7天、14天、21天、28天的血常规衍生炎症指标,了解上述指标对BPD的预测作用,以期指导临床防治BPD,改善疾病预后。方法:将2015年01月至2020年12月出生并于生后24小时内转入我院新生儿重症监护病房(
学位
事件时序关系识别任务是关系抽取任务的一个重要分支,旨在识别两个事件之间发生时间的先后顺序。由于其对多个自然语言处理任务具有良好的辅助作用,近年来得到了越来越多的关注。本文主要针对英文事件时序关系识别展开研究,研究内容包括以下三个方面:(1)基于信息交互增强的事件时序关系识别方法目前,已有的神经网络方法对于事件间信息交互的考虑相对缺乏。针对上述问题,本文提出一种通过参数共享增强事件间信息交互的方法。
学位
抽象语义表示(Abstract Meaning Representation,AMR)是一种新型的基于句子级的语义表示方法,形式上是一种单根有向无环图。AMR文本生成(AMR-to-Text Generation)技术则是自然语言生成领域的前沿研究任务之一,旨在给定AMR图,生成相同语义表示的自然语言文本。目前相关研究通常使用序列到序列的方法,如将AMR图进行序列化。然而,对结构化数据进行序列化势
学位
贵州酱酒热受到了社会大众和学界高度关注。如何助力贵州酱酒从“酱酒热”转变为“品牌热”是一个重要的研究课题。为此,文章基于赋能理论,从短视频平台赋能中的结构赋能和平台资源赋能两个维度进行探究,创新提出短视频平台赋能贵州中低端酱酒品牌价值提升的6种路径。
期刊
在日常口语对话中,人们常会使用代词来替代先前说过、但表述较为复杂的句子或短语,以使得语言表达简洁连贯,从而提高沟通的效率。然而,代词给日常交流带来便利的同时,也会引起语言理解的歧义,特别是一句话中存在多个指代关系时,对代词理解的细微偏差便会使句子的意思完全不同。基于神经网络的对话生成模型也受上述问题影响,口语中的代词给模型的语言理解造成了困扰,影响了模型回复生成的质量,这是对话技术性能提升的一大瓶
学位
信息时代的到来使得我们几乎拥有了永久性的记忆,人们在网络上留下的任何信息都难以被遗忘。虽然信息时代带给我们以便利的生活,但我们也常常被互联网中所留存的有关自身过时或不必要的信息所困扰。为了解决这一困境,更加有效地保护公民的个人信息,被遗忘权由此应运而生。作为一项新兴权利,被遗忘权的权利内涵来源于法国的“忘却权”,核心目的便是使人摆脱过去行为的束缚,从而拥有改过自新,重新开始的机会。2012年,被遗
学位
法谚云:“迟来的正义非正义”,强调的是正义实现的及时性和有效性。司法审判的效率提升是一个司法理论和实务界均高度关注的热点问题,应运而生的民事诉讼程序繁简分流也是司法制度改革的重点之一,但民事诉讼法及其司法解释并未针对繁简分流的具体运作流程作出明确的规定,最高人民法院也是近年开始在部分法院开展繁简分流的试点工作,以期取得可复制的经验后全面推开。本文将以最高人民法院第一批试点法院A法院繁简分流的具体运
学位
近几年,全球经济发展减缓,世界各国传统贸易增速缓慢。尤其是欧盟、美国等发达国家,其在国际传统贸易领域的市场份额逐渐被新兴经济体所取代。越来越多的国家开始寻找促进本国经济发展的新发动机。拥有巨额资金的政府采购市场进入发达国家的视野。国际社会渴望国际政府采购市场开放、提高国际政府采购市场自由化程度的呼声愈发高涨。随着区域经济一体化程度的加深,欧美等发达国家将开放政府采购市场的意愿引入区域贸易协定的谈判
学位
本文建立永磁同步电动机的数学模型,采用一种粒子群优化PID控制算法对永磁电动机的功率和载荷进行控制,并结合Simulink平台对控制器的效果进行了仿真。
期刊
为了助力碳达峰且为企业降本增效,以一台150kW永磁电机为改进对象,提出一种新的转子结构及电磁设计方案,将其改造成铁氧体辅助同步磁阻电机(Pma-SynR)。改造后的电机与原电机具有相同的定子结构,在一定程度上节约了制造成本。结果表明,改造后的Pma-SynR可以对PMSM进行替代,为企业达到降本增效的目的。
期刊