基于编码—解码模型的序列映射若干问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:kinghuang1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在序列信号处理相关的问题中,研究给定一个序列如何生成另一个序列是一个重要问题。本论文将这类问题统称为序列映射问题,如机器翻译,语音识别等都属于这类问题。传统的方法在解决这类问题时都大致将问题分解为人工设计特征、序列之间的对齐、外部的语言学知识等子问题,进而针对性地建模加以解决。随着深度学习的发展,这些子问题对应的模型如翻译模型、声学模型、语言模型等都从神经网络的强大建模能力中获益。虽然深度学习可以更好地解决这些子问题,但是传统方法的“分而治之”的解决思路也带来了很多问题,例如复杂的系统搭建和部署、各个子模块无法联合优化导致的误差累积等。因此,完全不同于传统思路的端到端的方法在最近日益得到人们的重视,其中编码-解码模型就是新的能够将输入序列直接转换为输出序列的端到端模型。编码-解码模型很快在机器翻译、语音识别等问题中都得到了很好的应用,并且能够提供与传统系统相当甚至更优的性能。尽管如此,编码-解码模型仍然存在诸如训练效率低下、不支持实时识别等问题。同时新的更适合具体任务的编码-解码模型结构也值得探索。因此,本论文对基于编码-解码模型的序列映射问题进行研究,提出了几种新的编码-解码模型结构,并在机器翻译和语音识别这两个具体任务中进行验证和探讨。首先,常用的编码-解码模型主要使用循环神经网络作为基本模块,这会在编码和解码模块中引入序列内的时序依赖,导致模型的计算并行度降低,影响模型的训练效率。针对这一点,本文提出了一种基于前馈序列记忆网络的编码-解码模型架构。在新模型中,前馈网络消除了计算过程中序列内的时序依赖,记忆模块提供的序列上下文的记忆则保证了整个编码-解码模型的正常运行。通过本文提出的方法,编码-解码模型在机器翻译任务中在保证性能的前提下将训练效率提升约2倍。其次,编码-解码模型中的注意力机制要求模型在接收到整个输入序列之后才能进行解码输出,这对于有实时性要求的任务如语音交互等是不能接受的。针对这一点,本文提出了高斯预测注意力机制和语音片段边界检测注意力机制,让模型能够进行实时语音识别。第一种注意力机制假定每个解码时刻的注意力向量是一个高斯窗,高斯窗的均值和方差分别描述了注意力的位置和聚集程度。因此模型通过预测高斯窗的方差和相对前一个输出时刻的均值增量,即可得到沿时序单调移动的注意力向量,获得实时识别的效果。第二种注意力机制利用语音由若干长短不一、前后相连的片段组成的特点,通过引入语音片段边界检测模块,将实时语音识别的过程分解为两个交替进行的步骤:语音片段边界检测;利用软注意力机制从边界确定的片段中收集信息产生识别输出。该模型能够获得与目前最优实时识别模型相当的识别效果。同时本文使用强化学习来训练边界检测模块,也验证了强化学习对于语音识别这一实际任务的有效性。最后,编码-解码模型的注意力机制对于语音单调对齐的特点利用不足,已有的端到端模型没有充分体现语音的短时平稳特性,模型可解释性不足。针对这一点,本论文提出了新的结合序列状态建模的编码-解码模型。该模型模仿传统方法中的隐马尔科夫模型,直接对发射概率和跳转概率进行建模,构建了所有可能的输入语音和输出文本的对齐路径,并且强制每一帧都与实际的符号对应。作为与已有端到端模型框架都不同的新模型,该模型能够获得与其他模型大致可比的识别性能,同时提供了明确的逐帧对齐信息,具有更好的可解释性。
其他文献
随着GPS在现代生活中的广泛应用,高精度GPS观测的需求逐步增长,例如精确导航定位、城市中高层建筑的形变监测、大坝的形变监测、对地壳运动的研究。在类似形变监测或全球陆海
1)2009年6月,《煤炭科学技术》被中国科学技术信息研究所评为“中国科技论文统计源期刊(中国科技核心期刊)”。2)2009年6月28日,“2009第五届中国国际煤炭装备及矿山技术设备展览会
2010年3月31日,我国正式推出融资融券制度。该制度十年间发展迅速,目前已经成为我国资本市场上一股不容忽视的力量。目前阶段,绝大部分相关研究主要集中在融资融券制度整体对股市的影响,而很少关注到占据两融规模较大比重的股票融资交易单独对股市波动的影响究竟是怎样的,而这恰好是证券研究人员和监管者十分关注的问题,对其投资策略调整具有十分重要的意义。并且相关研究结论可以给监管政策制定者提供参考。特别是融资
针对目杜儿坪矿瓦斯含量大且抽采效果差、抽采出的瓦斯浓度低、难以利用的实际问题,提出了采用密闭巷道与钻孔联合预抽瓦斯技术,并对该技术实施后的抽放效果进行了分析研究,
随着人脸识别技术的不断深入研究,基于视觉信息的人脸性别识别问题逐渐成为计算机视觉领域的研究热点之一。相比其他生物特征,人脸特征的信息丰富度较高且采集成本和难度较低
统计器就是一个程序,用来统计你的网站访问者的情况    看起来挺神秘,其实很简单。统计器就是一个程序,用来统计你的网站访问者的情况。它能统计网站每天的访问量,并在此基础上进行数据挖掘。比如,它能告诉你在一天当中的什么时间段你网站的访问者最多(通过它可以了解到你客人的购买习惯);在一年当中,有哪几个月访问人数最多(能够明显看出你产品的淡旺季);你的访问者来自什么国家、什么城市,以及这些访问者的分布比
英国政府日前发布名为《粮食2030》的新粮食战略,提出在今后20年里推动农业可持续发展,确保粮食安全和食品卫生。英国环境、食品和农村事务大臣希拉里·本说,近几十年来很多
庄子的“逍遥”思想是庄子哲学沉思的核心和指归所在。而以庄子的“逍遥”沉思而言,“逍遥”思想呈现出一个系统的有机整体。作为庄子沉思的对象——“逍遥”的衍生以“天人之辩”为其背景和视域。在“天人之辩”中,庄子首先区分了人的两种存在形态:一为“世俗之人”或人的世俗化形态;一为理想的本真之人。而后者又是以“天”为内在规定。可以说,在天人之间,“人”以“天”为本真之性,而“天”以“人”为价值指向。而在人实际
马克是美国一家小镇上的保险推销员。马克的工作就是每天挨家挨户地去推销保险。马克工作很努力,每天天还没亮,他就已经在去工作的路上了,而晚上别人都下班了,马克依然在挨家挨户
自然界的大量复杂系统都可以通过形形色色的网络加以描述,复杂系统涉及自然、物理、生物、社会、经济、环境、生态等众多领域和学科。复杂网络是研究复杂系统的一门新兴学科,