基于量化变分自编码器的长文本生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fengyufengsc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动生成是自然语言处理中的核心任务之一,已广泛应用于机器翻译、自动摘要及对话系统等子任务中。近来,在众多文本生成问题中,条件文本生成逐渐成为学术界及工业界的重要前沿研究问题之一。条件文本生成任务是指给定输入文本,模型自动生成与原文意义一致的相应文本。当限定输入文本长度远远低于输出文本长度时(短到长文本生成),该任务变得格外具有研究挑战性。首先,输入文本过短直接导致了信息缺失问题,这就要求相应模型需要具有能力来有效补充外部信息。其次,鲜有方法显式要求生成文本具有一定程度的逻辑连贯性,而逻辑性缺失显然会极大限制模型解决真实世界问题的能力。针对上述问题,本论文提出了基于量化变分自编码器的逻辑连贯长文本生成模型(LOG-VQ-VAE)来同时解决这两个研究挑战。针对信息缺失问题,该模型设计了隐空间信息存储模块。通过计算、存储全局信息,并对每一输入短文本选取全局隐向量,模型可以有效地进行外部信息补充。针对逻辑连贯性问题,该方法对将要生成的长文本段落逻辑关系进行建模,并使用段落逻辑关系来辅助输出文本的解码生成,从而提高逻辑连贯性。此外,论文还提出了特殊隐空间训练方法并设计多样性损失项来辅助模型训练。在研究过程中,本论文发现所使用的骨干网络,即量化变分自编码器,存在隐空间向量利用率不佳的问题,并导致模型性能较差这一结果。为此,论文进一步提出了基于量化变分自编码器的多采样长文本生成模型(MS-VQ-VAE)。为优化隐空间选取策略,该模型按概率选取隐向量来训练隐空间。同时,该模型动态地选择多个隐向量,并设计了相应的隐空间损失项。为避免过拟合问题,该模型通过分布映射方式来降低隐向量维度,进而有效降低模型复杂度。最后为证明模型的有效性,论文在三个真实数据上进行充分实验验证。实验结果表明,在ZHIHU数据集上,LOG-VQ-VAE模型的METEOR指标可达15.40,提升约5%;在News-Report数据集上,MS-VQ-VAE模型的ROUGE指标可达16.78,提升约13%,由此可见本论文提出两种方法的有效性。
其他文献
目的:氧化应激参与慢性阻塞性肺疾病(COPD)的发病机制。血清8-羟基-2’-脱氧鸟苷(8-OHd G)被认为是氧化应激的生物标志物,与多种肺部疾病有关。尽管如此,8-OHd G在COPD患者中的作用仍不清楚。本研究的目的是通过一项前瞻性队列研究,评估入院时的血清8-OHd G水平与慢性阻塞性肺疾病急性加重(AECOPD)患者的严重程度和预后之间的相关性。方法:共纳入150名AECOPD住院患者和
学位
背景心肌纤维化(myocardial fibrosis)是心功能障碍时心脏自身的代偿反应,是许多心脏疾病终末期的共同病理生理机制,临床上可表现为心律失常或心力衰竭。在细胞水平上,当受到机械牵拉和一系列调节细胞生长、分化的生物介质等刺激时,纤维化的程序便被启动,许多这些介质是多肽和蛋白质生长因子,可在心脏内的不同细胞中合成,心肌纤维化发病机制的核心是各种病理途径激活了心肌成纤维细胞,胶原的合成增多而
学位
目的探讨原发中枢神经系统B细胞淋巴瘤的临床表现特点、不同治疗方案的疗效及影响预后的因素,为疾病的早期诊断、精准判断预后、选择最佳治疗提供帮助。方法回顾性分析2015年1月-2021年7月安徽医科大学第二附属医院收治的原发中枢神经系统淋巴瘤患者,共12例,收集12例患者的年龄、临床表现、血液学、脑脊液、病理学、影像学检查、治疗方案等一般资料,分析评估患者的预后分层、临床疗效与生存时间,分析患者的生存
学位
目的:多发性骨髓瘤(MM)是一种以异常骨髓浆细胞增殖为特征,可分泌大量单克隆免疫球蛋白或其片段,骨病是MM的主要症状之一,影响到患者的生活质量。对于骨病的检测可以有助于MM的诊断和危险分层,早期识别高危患者,从而进行有效干预治疗。PET/CT是一种新型的影像学技术,在MM中的应用越来越广泛。本文主要探讨18F-FDG PET/CT与初诊多发性骨髓(newly diagnosed multiple
学位
城市快速发展产生了热岛集聚效应,已经开始显著影响人们的身心健康。在目前我国全面推进城市更新的背景下,存量城市空间物理环境优化是城市更新的重要内容。更新街谷树木,作为一种经济、有效的改善街谷微气候手段,是提升街谷空间热环境质量的重要技术途径,也是城市整体热环境优化的基础。本文以哈尔滨典型街区的街谷群为研究对象,以景观界面测度作为街谷群景观形态的量化指标,通过现场实测以及ENVI-met模拟的方法,研
学位
随着老龄化程度进一步加深,国家提出积极老龄化国策和健康中国行动,关注引导性、无障碍、精细化的城市游憩空间建设。城市山地步道在提高土地资源利用率的同时,串联了城市绿色基础设施,为老年人提供了有效、趣味、易执行的健康活动方案,深受老年人喜爱。老年人是步道活动的主要群体之一,由于机能的下降和心理的变化,他们对山地步道空间提出了更高的包容性要求。从老年人游憩行为角度研究步道满意度影响要素,有助于识别提高步
学位
创业意向是大学生创业行为的重要预测变量,是国内外高等教育和创业教育研究的热点问题。已有研究主要从个体因素和单一国别探究创业意向的影响因素,关于创业制度环境对大学生创业意向影响的跨国别研究还处于起步阶段。基于制度理论,利用“全球创业观察”“全球大学生创业精神调查”数据,研究规制性制度、规范性制度和认知性制度对各国大学生毕业时和毕业五年后创业意向的影响,结果发现:认知性制度和规范性制度与大学生创业意向
期刊
背景社区获得性肺炎(Community acquired pneumonia,CAP)是肺部感染性疾病中发病率和死亡率的较高的疾病之一,早期发现并对CAP的诊断以及治疗有利于患者的病情转归以及经济负担,因此需要寻找一个用于诊断、预测病情严重程度以及降低发病率或病情严重程度的方法的生物标志物是必要的。有限的研究表明钙结合蛋白可能参与CAP的病理生理学。然而,没有临床相关的研究对分析钙结合蛋白家族中S
学位
目的:社区获得性肺炎(CAP)是一种具有高发病率及死亡率的感染性疾病。抵抗素是Toll样受体-4(TLR-4)的内源性配体,可激活几种炎症信号通路,诱发机体产生炎症反应。然而,血清抵抗素在CAP中的病理生理作用尚不清楚。本研究的目的是通过一项回顾性的队列研究,探讨血清抵抗素与CAP患者病情的严重程度及预后之间的关系。方法:通过一项回顾性的队列研究,选取2019年8月1日至2021年4月1日在安徽医
学位
背景恶性胸腔积液积液与结核性胸腔积液作为临床常见的胸腔积液,二者发病率均较高,两者治疗方式以及预后截然不同。恶性胸腔积液作为恶性肿瘤常见并发症,恶性程度高,临床治疗难度较大,预后极差,故而早期辨别及诊断胸腔积液性质是改善恶性胸腔积液患者预后的重要条件。限于目前对于胸腔积液性质诊断效率不足的现状,进一步探讨炎症标志物LCR(lymphocyte-to-C-reactive protein ratio
学位