语音转换技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:HuSiYou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一种改变源说话人的语音个性特征,使之听起来像另外一个我们称为目标说话人的声音的技术。语音转换的基本要求是转换后的语音具有目标说话人的个性特征,但是并不改变原来说话人语音中的语意内容。虽然语音转换这个课题的提出已有二十多年的历史,但真正引起广泛关注并得到快速发展却是近年,可以说语音转换是语音信号处理领域的一个新兴研究方向,具有重要的理论价值和广泛的应用价值。本课题主要研究语音转换系统的基本理论和关键技术,课题得到国家863重点项目1的资助。   本文主要研究了对齐语音库条件下的语音转换技术,即在训练阶段源说话人和目标说话人说相同语音条件下的转换。本文主要工作和创新如下:   (1)在大量阅读国内外文献的基础上,研究分析了语音转换技术的现状和发展动态,对比了各种语音转换方法,进行了性能优劣的比较。   (2)在声道谱转换方面,研究了转换函数的训练模型,分析了传统高斯混合模型GMM下转换谱出现过平滑的原因,提出了利用语音参数动态特性的改进训练方法。   (3)在韵律转换方面,对时长、基频和能量均做了分析,探索研究了汉语的韵律模型,通过基频修改进行了音调转换。   (4)在语音分析合成方面,研究了LPC模型和STRAIGHT模型。针对LPC模型不能有效实现基频与声道谱完全分离的问题,将STRAIGHT分析合成模型引入改进的GMM模型中,进一步合作转换高质量语音。并对两个系统进行了仿真实验,分别从主观和客观两个方面评价了转换语音。
其他文献
跳频是发射信号的载波频率周期性改变的通信方式。跳频系统抑制干扰的机理是躲避干扰。当躲避失败时,由于载波频率周期性改变,跳频信号仅被暂时干扰。跳频系统的这种时变特性
H.323协议是国际电信联盟ITU-T制定的基于分组交换网络的多媒体通信的系列标准,它可以运用于多种场合,如视频会议系统、远程监控系统以及远程鉴定系统等,其中H.323协议在远程
传统的异构网络包含各种类型的基站,对应不同的发射功率、覆盖范围、工作载频等参数,通过重叠覆盖的方式提供无缝的网络接入和高速的数据传输。如今,异构网络的概念已扩展至
当前无线通信系统普遍采用数字调制技术。由于通信技术的不断提高和通信需求的不断加剧,数字调制方式的种类也日益繁多,无线通信的传输环境越来越复杂,特别是在非协作通信中,
随着Internet技术的飞速发展,用户已不再满足于只是在网络上浏览网页、收发电子邮件等服务,流媒体的应用越来越广泛。然而由于流媒体具有数据量大、持续时间长、占用带宽高等
扩频通信技术因为具有抗干扰能力强,频谱密度低,保密性好等特点被广泛应用。常用的扩频方式有直接序列(DS)扩频,跳频(FH)扩频,跳时(TH)扩频,线性跳频扩频(Chirp Spread Spectrum,CS
干扰认知技术是智能抗干扰系统的基础和前提,它能实时检测周围电磁传播环境的干扰空穴、识别干扰、估计信道质量(信干噪比)等,为抗干扰决策系统实施抗干扰行为提供依据。本文立足
随着国家城镇化建设的加快,社会经济体制改革,人民生活质量提高,各类新型犯罪形式的出现及犯罪手段水平的提高,都对公安系统的信息化建设提出了新的要求,尤其伴随着大型视频
卫星通信系统在空间传输中易受到干扰影响。研究相应的抗干扰措施可以保证通信的质量。此外任何一个通信链路中,同步都是一个很必须的部分。良好的同步是完成对信号的正确接
网格计算是分布式计算的一种,它是利用互联网或其它专用网络将地理上广泛分布的、异构的、自治的、动态的各类软硬件资源互联起来而整合成的一台虚拟“超级计算机”,它可以为