【摘 要】
:
随着语言模型建模能力的增强,使用机器生成流畅的句子或片段已经不再困难,然而当长度增加时,生成文本往往难以保持原有的高质量,开始出现严重的不一致和退化问题。究其根本原因,一是由于语言模型对自然文本的建模存在偏差,无法保证预测的概率分布总是符合上下文语境,导致生成的词语与前文不一致或不相关。二是解码算法没有对语言模型的偏差合理规避,使得不一致或不相关问题随长度增加而逐渐累积,最终偏离了原有质量。基于以
论文部分内容阅读
随着语言模型建模能力的增强,使用机器生成流畅的句子或片段已经不再困难,然而当长度增加时,生成文本往往难以保持原有的高质量,开始出现严重的不一致和退化问题。究其根本原因,一是由于语言模型对自然文本的建模存在偏差,无法保证预测的概率分布总是符合上下文语境,导致生成的词语与前文不一致或不相关。二是解码算法没有对语言模型的偏差合理规避,使得不一致或不相关问题随长度增加而逐渐累积,最终偏离了原有质量。基于以上原因,本文分别从语言模型和解码算法两方面对提高文本一致性和长文本生成质量展开了研究,其主要内容如下:(1)在Transformer-XL基础上改进并设计了基于全局记忆的可控长文本生成模型,它将Transformer-XL的Memory分割为本地化记忆和全局化记忆两部分,既继承了Transformer-XL对长文本建模的优势,又能实现可控文本生成,内容文本对于同一控制信息的依赖还能提高一致性,改善长文本生成质量。(2)设计了一个基于采样的启发式树搜索解码策略,它包括生成器和评估器两个构件,其中生成器用于生成句子,评估器用于给句子打分,算法以句子为单位对生成过程进行控制,得分低的句子会在后续解码中被舍弃。通过额外的评估器评分和独有的回退机制,基于采样的启发式树搜索算法能够尽量地避免偏差在生成文本中的积累,特别是在生成长文本时具有极大优势。(3)从提高一致性和灵活性考虑,分别设计了温度核采样和带采样的多样集束搜索算法。其中温度核采样是核采样算法的改进版本,以增加一行代码的代价大幅提高了一致性;带采样的多样集束搜索算法解决了多样集束搜索总是产生固定化输出的问题,提高了生成的灵活性。此外,本文还设计了一种改进的重复惩罚策略,它根据重复程度动态地计算惩罚因子,能够更彻底地避免文本重复问题。(4)针对以上方法进行了全面的实验评估,证明了改进方法的有效性。同时应用改进的模型和改进的算法时,其BLEU得分相较于GPT2提升约33%,与人类文本在一致性得分上的差距相比于基线方法缩小了一个量级。最后,基于以上研究设计并实现了一个开放式文本生成系统,该系统集成了多种解码算法,允许生成时自由选择。系统还提供了模型训练和文本评估功能,能够满足各开放式文本生成任务的基本需求。
其他文献
在人类探索世界的过程中,存在着许多无法到达的场所,而足式机器人由于其承载能力强、稳定性好、适应各种不同地形而成为研究重点,六足机器人由于其相对四足机器人可以实现更好的稳定性,而与八足机器人相比,六足机器人机体结构又更为简单,因此有更简单的运动控制策略,因而有其重要应用。本文设计构建了六足机器人模型,从足尖轨迹规划、中枢模式发生器、深度强化学习三种运动控制方法对机器人运动控制策略进行了研究与仿真。本
新能源汽车代表着汽车电动化与智能化的发展走向。四轮轮毂电机独立驱动的汽车方案有着简洁的传动机构和更高的可控自由度,其动力系统一直是研究的热点。本文以四轮轮毂电机独立驱动的电动汽车为研究对象,对整车动力系统方案、动力系统域控制器平台设计展开研究。主要研究内容如下:(1)针对电动汽车建立动力系统仿真计算模型,用于分析其动力性能指标,主要包括分析该汽车动力驱动系统对驱动力矩、电机转速、动力驱动总功率等需
近几年各类新兴技术例如量子科技、区块链以及人工智能迅猛发展,给传统网络带来了极大的挑战,而网络虚拟化技术为传统网络能满足多元化的网络需求带来了可能性。本文主要从以下两个方面对虚拟网络映射问题进行研究:针对深度卷积神经网络的计算负载会使终端设备产生大量能耗的问题,本文将深度卷积神经网络的计算任务作为虚拟网络请求,将它映射到多个终端设备上,由多台终端共同分担计算来减少对自身的损耗。在实现时将神经网络每
同步定位与建图(Simultaneous Localization And Mapping,SLAM)已经在机器人视觉领域进行了几十年的研究,但是基于传统建图方法下的深度估计花费时间长,很难达到工程上要求的实时性,而且地图中不具包含义信息,使得三维建模在应用方面的拓展受阻。基于这些问题本文设计了一种基于深度学习的单目图象深度估计的方法,提高建图速度,同时设计了一种融合的语义分割网络,让整个系统能够
网络服务器和个人主机经常受到网络黑客的威胁,他们使用恶意制作的数据包来利用软件漏洞并获得系统管理员权限。尽管当前研究人员针对软件漏洞及相应防御方法进行了大量的研究,但此类攻击仍然是安全领域最大的问题之一。随着数据执行保护和W⊕X的广泛部署,攻击者被迫在二进制文件中重用现有的代码片段。代码重用攻击可以执行任意的图灵完备计算而不用注入任何恶意代码。其中,面向返回的编程(ROP)已经成为攻击者规避最新操
根据图像进行三维重建是计算机视觉领域热门的研究课题,被广泛运用于自动驾驶,机器人导航,虚拟现实,增强现实等应用之中。传统的三维重建方法通常依赖于特定的硬件设备或者多视角图像,这在实际运用中是容易受限的。同时,传统的三维重建方法多用点云表示重构的三维模型,这在数据存储和处理上是不方便的。而在实际的应用场景中,我们周围的环境通常具有明显的平面结构,比如地面,建筑物表面等等。因此,用平面结构来解析三维场
车辆路径规划是智能交通中的重要研究方向之一,其研究内容主要包括路网模型、交通信息预测和路径规划算法等。如何充分利用道路交通信息,动态且快速地为目标车辆提供一条合理高效的行车路线具有非常重要的意义。论文将深度强化学习融入路径规划算法,对车辆动态路径规划问题进行了研究。论文的主要工作如下:论文针对现有路径规划中对路况分析不全面的问题,构建了基于层次分析法的道路效率指标评价模型,综合分析各种影响道路通行
随着计算机网络的发展和不断流行,越来越多的网络应用和网络服务在Internet上运转。方便大众的同时,这也给网络攻击者可乘之机。用户对网络依赖性的加大,导致网络设备的大量增加,使得攻击者更为方便地控制足够多的僵尸主机在网络上发动攻击,所以当下面对的网络安全威胁更加棘手。其中比较棘手的攻击就是分布式拒绝攻击(DDoS),这种攻击的攻击形式多,危害大,并且难以识别和防御。由于SDN技术的不断发展,结合
随着三维传感技术的极速发展,已经有大量的三维模型出现。如何帮助用户高效使用已有的三维模型,已成为如今亟待解决的问题,三维模型检索方法随之诞生。一方面,现有的基于多视图的三维模型重建算法受LSTM网络时序性的影响,重建结果与输入二维图像的顺序息息相关。另一方面,目前的三维模型检索算法大多基于传统卷积神经网络进行研究的,但是传统的卷积神经网络具有平移不变性,且由于神经元为标量的缘故需要大量的数据进行训
近年来,随着信息通信技术的快速发展和信通网络的大规模部署,新兴网络应用大量涌现。信通网络各层协议和应用在正式部署于实际系统之前须经过严格的测试。因而,构建逼真度高、成本可控且灵活可扩展的测试网络对于网络研究具有重要意义。现代信通网络结构复杂、构建成本巨大,若所有测试网络均采用实际物理设备搭建,将耗费极大的人力和物力。为降低构建大规模测试网络的成本,提升测试网络灵活性和可扩展性,可采用虚拟节点构建测