基于卷积神经网络的耳语向正常语音转换研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:sihuajian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语是指无声带振动的低能量发音。它是人与人之间一种特殊且必不可少的交流方式。例如,在像图书馆和会议室之类禁止大声讲话的场所,人们通常使用耳语进行人与人之间的交流或者人机交互;并且近年来,与表面肌电图接口和磁共振成像接口相比,耳语已成为人机交互领域中最便捷的静音接口之一。由此可以看出耳语具有较广阔的应用前景,因此近年来,耳语转换为正常语音(通常使用耳语转换表示)的研究备受研究者的关注。本文主要研究基于卷积神经网络的耳语转换技术,研究的具体内容分为以下两部分:首先,经过调研发现目前已有的耳语转换方法无法充分利用语音的时域和频域相关性进行建模。当相邻连续的语音帧频谱拼接成矩阵时,其在时域和频域两个维度上的局部相关性与图像中相邻像素之间的相关性非常类似。而卷积神经网络(Convolutional Neural Network,CNN)中的卷积层内的神经元是由前一层中位置相邻区域的多个神经元经过卷积计算得到的,同时由于前一层某一区域内的点包含了输入语音频谱的时域和频域的信息,故卷积层能够提取语音频谱特征中隐含的时域和频域相关性信息。为了充分利用语音的时域和频域相关性进行建模,本文提出了使用深度卷积神经网络模型(Deep Convolutional Neural Network,DCNN)实现耳语转换。实验结果表明使用DCNN模型相比DNN模型得到的转换语音更加接近正常语音。其次,虽然DCNN模型能够充分利用语音的时域和频域相关性进行耳语转换建模,但DCNN是使用全连接层来拟合卷积层提取的特征与正常语音特征之间的映射关系。由于全连接层将输入的每帧语音特征都视为独立的,因此DCNN无法对卷积层提取的特征进一步利用时序相关性进行建模。而BLSTM(Bidirectional Long Short-Term Memory)能够很好的利用时序相关性,因此为了充分利用CNN和BLSTM的优点本文提出使用深度卷积循环神经网络模型(Deep Convolutional Recurrent Neural Network,DCRNN)进行耳语转换。此方法在真实的耳语数据库上进行了验证,实验结果证明了该方法的转换效果相比DCNN模型得到了进一步提高。
其他文献
《2001:太空漫游》被誉为"现代科幻电影技术的里程碑",《流浪地球》开启中国科幻电影元年,被《纽约时报》评为"中国电影新时代的开端"。将两部同样具有里程碑意义的作品进行
众所周知,公路属于公共产品,公益性是发展公路事业必须坚持的理念。可是,尽管国家确立了以“非收费公路为主,适当发展收费公路”的思路,但很多地方的收费站却“三步一岗、五步一哨
循环经济是近些年发展起来的一种新的经济概念,农业循环经济的发展是指循环经济的基本原则在农业系统中的应用。作为国民经济的基础,农业与经济和人类社会的可持续发展息息相
互动形态下的书籍设计是在新时代背景下,纸质书籍的一种新的设计方式,也是一种着重于“读者体验”的设计手法。这种理念在书籍设计中的应用是具有可行性的,它突破了传统的书籍设计思维,将单向的文字阅读变为可感知的,把单方面的信息传达,转换为可以用感官体验方式进行的多元化信息传递。互动形态下的书籍设计属于一种立体的思维,它意图通过设计让读者在阅读时与书进行互动,从而在书中获得全身心的感受。本文在此基础上进行系
<正>随着电影《芳华》的上映,同名小说也跟着热销起来。从2017年4月到2018年1月,人民文学出版社在不到一年的时间里,总共印刷了13次,发行量也高达80万册,应该说这是近几年来,
在3月22曰举办的首届长城国际可再生能源论坛上.国家能源局新能源和可再生能源司副司长李创军表示.下一步国家能源局将积极推进可再生能源规模化发展.优化开发利用布局.确保实现2
<正>哥伦比亚特区,华盛顿,1968年4月2日。上城戏院。全世界急切地等待斯坦利·库布里克的最新史诗电影的首映。库布里克与著名科幻作家阿瑟·C·克拉克合作的这部影片的拍摄
光滤波器是光链路中最基本的光器件之一,从其光谱响应中可获得工作带宽以及中心频率等信息,因此准确测量光滤波器光谱响应对链路评估以及优化具有十分重要的意义。采用光学方法测量光滤波器光谱响应存在分辨率低的缺点,基于微波光子的方法则可以有效地克服以上缺点。微波光子学融合了光域和电域的优势,具有十分重要的研究意义。本文提出了基于时频信号激励测量光滤波器光谱响应的方案,主要研究内容如下:研究了基于单边带调制的
青少年的网络成瘾已成为一个全球突出的精神卫生问题。以往研究发现,网络游戏成瘾和攻击行为高度相关,但两者之间的纵向关系尚无定论,尤其是网络游戏成瘾与反应性攻击和主动型攻击之间的纵向关系还未见研究。本研究将采用纵向追踪设计考察网络游戏成瘾倾向和儿童反应性、主动性攻击之间的纵向关系以及网络游戏成瘾倾向和攻击行为关系之间存在的性别差异。本研究以天津市南开区某小学二至五年级学生共1180人为研究对象,采用整