潜变量模型在自然语言生成中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:e7889620621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于递归神经网络(RNN)的语言模型已经在很多语言生成的任务中取得了非常杰出的成果,然而模型主要关注的是如何减少字符层面的误差,却因此导致了对句子整体的忽视。一个行之有效的办法是引入表示句子整体的潜变量,并在潜变量的引导下完成生成任务。本篇论文分析了在自然语言生成的任务中引入潜变量模型的原因和理论背景,我们主要关注两个最为重要的生成模型:变分自编码器和生成对抗网络。这两个模型都利用潜变量完成任务并且可以有效应用在大规模数据集上。我们首先分析基于字符的语言模型的有效性,然后应用变分自编码器为生成过程带来更多变化。为了进一步提高生成性能,我们尝试了两种可能性:使用生成对抗网络对潜变量分布进行建模以提高灵活性,利用提出的wake-sleep过程提高语言模型和潜变量分布的能力。最后,我们实现了一个条件变分框架来达到通过手动指定的特征来控制生成过程的目的。我们的发现如下:  在语言生成任务中,当前最好的语言模型和人类表现之间仍存在巨大差距。我们需要更先进的技术来改善生成过程。  变分自编码器的应用可以帮助生成更长且一致性更好的句子。  当在语言生成中应用生成对抗网络时,训练对超参数非常敏感,性能十分不稳定,需要更多细粒度的控制。  Wake-sleep训练有助于改善变分自编码器的整体性能。与生成对抗网络相比,它具有更少的计算复杂性和更稳定的训练过程。  条件变分框架具有将外部知识引入生成过程的潜力,在不同的语言生成任务中有很强的控制作用。
其他文献
当今社会很多实际问题都可以归结为大规模的模式识别问题,比如对网页信息的数据挖掘、交通系统客流分析等等。然而对于大规模问题,即使像SVM等高效算法依然难以真正突破这个
随着信息技术的广泛应用和Intenet的飞速发展,网络上的Web服务资源数量急剧增多。基于功能性匹配的服务选择算法在服务资源有限的情况下能比较准确的选择服务请求者满意的服
本文对基于可执行文件的漏洞挖掘和利用技术进行了深入的研究和探讨。安全漏洞(Vulnerability)是网络攻防的关键。先进的漏洞挖掘和利用技术有助于研究者先于攻击者发现安全
本文设计了一个面向实时网络安全处理的密钥系统,该系统能高速地产生高性能的密钥,密钥产生的速度很好地满足了网络实时加密流加密的需求,并且产生的密钥随机性高,能通过FIPS
随着航空技术的不断进步,以及国际形势的发展变化,全球空中交通日趋繁忙和复杂,空域管理面临越来越大的挑战,尤其是在覆盖众多类型航空器的军事应用中。因此,大规模场景下多航空器
信息分布存储系统中需要复杂的访问结构控制以及被保护信息的多种属性标签。在传统系统中,为了实现访问结构控制,由一台服务器明文存储所以信息,并作为控制服务器接受信息的
随着信息技术的不断发展,需要保存和处理的信息量爆炸式增长,应用程序对存储系统的I/O性能提出了越来越高的要求。预取技术作为一种重要的I/O性能优化手段而被广泛地应用于各级
随着工程应用的范围和复杂度日益增大,人们对可视化的要求也越来越高,无论是电力系统、热力系统还是工作流管理系统,都习惯使用模型图来表示系统的组成结构或特定的工作流程
秘密共享是信息安全的重要组成部分,在重要信息和秘密数据的安全保存、传输及合法利用中起到了至关重要的作用。动态多秘密共享实现了参与者集合动态变化,完成了对多个秘密的
在各种图像分析和处理过程中,人们感兴趣的区域通常不是图片的所有内容,而是只是图像的一部分,因此,有大量研究者关注于人类视觉注意机制,并提出了一些计算模型,例如,Laurent