基于人工神经网络的语音转换技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:skyisheaven1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是指在不改变说话内容的前提下,实现源说话人声音向特定说话人声音的转换,其研究是在说话人识别和语音合成的研究基础上进行的,同时也是这两个领域的丰富和延拓,具有非常广阔的应用前景和理论研究价值,正逐渐成为语音处理领域的研究热点之一。   本文主要研究语音转换技术的基本理论和方法,研究了语音韵律转换和谱包络转换的基本概念和方法,重点研究基于RBF网络的谱包络转换算法和基于BP网络的基音频率转换算法的原理和实现,论文的主要工作如下:   首先,研究了传统RBF网络的结构和学习算法,并对网络的学习算法进行改进,通过引入减法聚类(SC)算法,克服了K均值聚类算法对初始聚类中心的选择比较敏感和事先要确定聚类中心个数的问题;将具有全局最优特性的粒子群优化(PSO)算法代替最小均方误差(LMS)算法作为RBF网络输出层的学习算法,可以克服LMS算法可能收敛于局部最优的不足。实验结果表明将SC算法和POS算法分别应用到RBF网络的隐含层和输出层中,可以使转换后的谱包络更接近于目标语音的谱包络。   其次,采用了PSO算法优化过的BP网络进行基音频率的转换,使得预测的基音频率曲线更接近目标说话人的基音频率曲线。PSO算法优化BP网络指的是网络中权值、阈值的修正不是按照传统BP算法中由梯度下降法推导出来的公式来修正,而是按照PSO算法中的粒子速度、位置修正公式来修正。这种新的融合算法避免了梯度下降法导致的算法收敛速度慢和易陷入局部极小。   最后,在基频曲线的转换均采用BP PSO网络的情况下,谱包络的转换分别采用改进的RBF网络和传统的RBF网络,将这两种不同方案得到的语音进行了主客观对比。
其他文献
霍山县位于安徽省西部大别山腹地,属淮河流域中游丘陵山区,为全省水土流失重点治理区.全县土地总面积2040.4km2,其中水土流失面积791.23km2,占土地总面积的38.78%.全县山多地
我国水闸数量众多,分布广泛,各类水闸在防洪抗旱、供水灌溉、航运及挡潮等方面做出了巨大贡献.做好水闸管理工作,对于保障水闸安全运行,发挥水闸的社会经济效益,具有十分重要
Femtocell可以提高室内信号的覆盖率,为家庭住宅或者小型办公场所等场景的室内用户提供更高质量的服务。因此Femtocell得到了广泛的部署,与传统的宏网络构成了异构网络。同时
多输入多输出(Multiple-Input Multiple-Output,MIMO)技术通过在发射端与接收端的多天线配置,提供丰富的空间复用增益和空间分集增益,能够在不增加系统带宽的条件下极大的提高无
本文以无线数字固定中继蜂窝系统为研究背景,研究蜂窝中继网络中的关键问题,重点对中继部署结构和频率规划方案设计进行了全面而深入的研究。本文针对引入中继后的蜂窝系统,
随着计算机技术的进步和其他相关学科的发展,在过去的几十年间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。TTS (Text-To-Speech)中文语音合成技术,又称为文
正交频分复用(OFDM)调制利用许多并行的、传输低速率数据的子载波来实现高速率的通信,并且其具有有效抵抗信道的频率选择性衰落和脉冲噪声的优点。然而,OFDM系统对于多普勒(D
随着科技的进步以及人们安全意识的提高,智能监控具有更加广阔的发展前景。相对于身体的其他部位,人类的头部及面部信息具有更高的区分度。因此对头部区域的检测跟踪方法研究
随着计算机和移动电子设备的普及和应用,关于如何方便自然地进行人机交互的研究越来越受到关注。作为一种智能人机交互方式,视线跟踪技术的有关研究逐渐成为了国内外的热门研
超宽带(UWB, Ultra Wideband)技术自问世以来,因其具有高速率、高可靠性等诸多优势,被视为实现室内短距离无线通信的最有效途径之一,吸引了业界专家及学者们越来越多的关注。