基于频率规整的语音转换技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:boyzhxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术是现代社会一项重要的语音处理技术,它能够保留语音的语义信息,同时改变语音包含的辨识身份的特征。然而,对语音的任何修改都会对它的感知特性造成影响。特别是对于特定人语音转换技术,语音的谱包络转换和韵律转换都会引起音质的显著下降,随着人们对转换相似度要求的提高,音质问题变得愈发显著。如何使转换效果能够兼顾相似性和音质,已经成为语音转换技术中亟待解决的问题。现有技术中,基于频率规整的谱包络转换方法能够提供较好的转换音质,但与目标语音相似度较低。本文研究基于频率规整的谱包络转换方法,主要工作分为以下三点:(1)提出了一种新型的基于共振峰二元映射的频率规整语音转换方法。针对传统的频率规整语音转换方法单纯处理频率拉伸导致相似度低的缺点,本文提出了基于共振峰二元映射的频率转换方法,能够对谱包络共振峰频率及相应谱包络振幅进行二元映射,与传统频率规整方法相比,该方法的转换频谱包络对目标频谱包络契合程度较高,有更好的相似度效果。(2)提出了基于GMM的加权频率规整语音转换方法。由于频率规整方法在语音转换结果的相似度上的固有缺陷,在前人研究GMM方法与频率规整方法的基础上,本文针对性地提出了一种基于GMM的加权频率规整语音转换方法,其规整函数为本文提出的二元映射函数与通过GMM方法训练的二元映射函数的加权组合。这种方法保持了频率规整方法的具有较高的转换音质的优点,又兼具了GMM方法转换语音与目标说话人语音的高相似度,平衡了合成语音的音质与相似度。(3)对相关研究方法进行了实验仿真与分析讨论。本文对比了基于共振峰二元映射的频率规整语音转换方法与基于共振峰映射的频率规整语音转换方法,实验证明该方法在相似度上优于基于共振峰映射的频率规整语音转换;对基于GMM的加权频率规整语音转换方法,对比经典GMM方法与提出的基于共振峰的二元映射频率规整方法,实验证明加权频率规整方法能够兼顾准换音质与相似性。
其他文献
目前所见到的自动调制制式识别的文章都是基于某一方面的,如:基于恒包络的调制(CW、FSK、PSK),基于多进制的QAM调制(4QAM、8QAM、16QAM)和基于多进制的MFSK、MPSK调制等,没有覆盖
在许多数字通信的应用中,传输的数据比特序列都由不同的重要性,因此产生了一些不等误差保护方案。H.263的基准句法结构对信道干扰非常敏感,通过试验我们可以得到在传输速率在32k
本文首先介绍了PACS系统的概念,然后对它的系统组成,相关技术以及规模特点等做了系统的描述。在随后的章节中我们主要介绍了对于构建PACS系统极为重要的DICOM通信协议,介绍了它
随着计算机科学、人工智能以及多媒体技术等学科的发展,以及各类具有摄像功能的移动电子设备逐渐普及,使得越来越多的信息载体以图像形式存在。图像中的文本识别对于基于内容
随着视频信息的大规模引入,基于关键字的传统检索技术已不能适应人们的需要,近年来,基于内容的检索成为研究的热点。本课题分析了现有的视频检索理论框架,并对传统的文字识别算法
近年来,智能天线已成为无线通信技术领域中的一个研究热点,该技术的应用可以提高无线通信系统的容量.该文首先介绍了阵列信号与无线信道模型和智能天线基本理论,阐述了向量信
目标检测与识别是自主寻的飞行器的关键技术之一。本文以提高目标检测与识别能力为目的,从三个方面开展了红外双波段成像的目标检测与识别技术研究。首先进行了目标成像建模
由于计算机网络具有联结形式多样性、终端分布不均匀性和网络的开放性、互连性等特征,致使网络易受黑客、恶意软件和其他不轨的攻击,所以网上信息的安全和保密是一个至关重要
工业领域中的实时应用一直都是一个需要昂贵专用硬件的领域,而基于PC/Windows组合的系统具有性能价格比高、拥有丰富强大的开发工具和应用软件并且用户众多等优点,因此,开发
该文的研究课题来源于国家863项目"视频信息的采集及多媒体信息在网上的实时传输".该文主要研究网上多路视频实时通信中的流量控制问题.随着多媒体技术的发展,基于网络的实时