语音信号表示模型及语音情感序列分类方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chloexg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文是语音信号处理中的基础性研究课题。本文研究主要包括两部分,第一部分是对语音表示模型及相关问题的研究;第二部分是序列分类算法及其在语音情感分类识别中的研究。 语音表示模型的研究和语音情感分类的研究都具有重大的实际意义。 语音信号的模型化、参数化表示是语音处理各个领域的基石。一个适当的语音表示模型能够提高语音编码器、语音识别系统和语音合成系统的有效性。现有的语音表示模型各有优缺点,对语音表示模型进行深入的思考和研究,汲取优点克服缺点,有助于提高语音应用系统的有用性。 语音的情感研究是语音处理领域的一个前沿研究方向。语音情感的分析能够为自动语音识别系统,语音合成系统和说话人认证系统提供有用的信息。语音的情感分类研究是语音情感分析的重要研究方法和途径。有效的语音情感分类识别系统能够辅助自动语音识别系统,提高对情感语音的识别率;语音情感聚类分析能够为语音合成系统提供必要信息用以合成带有情感的语音信号。 在语音表示模型的研究中,我们创新地提出一种线性预测和正弦+噪声联合表示语音的方法。这是作者对前人研究成果的综合性、总结性创新。在这个模型中,我们使用线性预测参数来表示浊音语音的声道特征,使用正弦+噪声模型来表示线性预测残差信号,即声门激励信号,和类似噪音的语音清音信号。这种模型克服了线性预测模型没有参数化表示激励信号的缺点,也克服了线性预测模型在表示清音信号时不符合理论模型的缺点。它融合了经典的线性预测模型和正弦+噪声模型的优点,通过独立的模型参数表示相应的语音特征,是一种对语音信号既完整又简洁的表示模型。 我们研究了模型表示的两个相关问题:噪声环境下的语音线性预测参数估计,高频率分辨度的激励信号正弦参数提取方法。 在噪声环境下的语音线性预测参数估计研究中,我们创新地提出了一种在离散高斯—马尔柯夫噪声下的语音信号线性预测参数的计算方法。噪声下线性预测模型系数的估计是信号处理中一个经典的难题。现有的方法主要针对白噪声而设计。而很多实际噪声,例如行驶车辆里的噪声、高速路噪声等,具有高斯—马尔柯夫噪声的属性,即自相关函数指数衰减。在新算法中,我们根据离散高斯—马尔柯夫自相关函数的特点,对噪声补偿尤里沃克方程做出相应调整。求解过程引入了基于矩阵二次特征值求解的方法。我们提出在挑选特征值时加入系统极点位置判断的方法,来保证求解系统的稳定性。 对于激励信号的正弦模型参数,我们提出使用基于子空间的线频谱估计方法来进行提取。经典的正弦+噪声模型采用时频变换的方法来提取正弦分量的参数。时频变换的频率分辨率有限,而且加窗分析产生频谱干扰。为了克服传统基于时频变换的正弦模型参数提取的缺点,我们使用子空间方法来提取正弦频率参数,并通过最小方差的方法进一步提取相位和幅度参数。这种方法有超高的频率分辨率,能使模型参数的提取更为准确、合成音质更好。 在混合表示模型的框架上,我们提出一种高质量的语音特征修改方法。这种方法中,我们通过修改线谱频率来修改语音的声管特征,通过修改激励信号的正弦频率和相位参数来修改语音的基音频率。而语音时长特征的修改则通过改变激励正弦相位参数和合成时的帧与帧重叠长度来实现。这种方法在修改特定语音特征的时候能保持其他特征不被改动,可以实现高音质的特征修改合成语音。 在基于序列的语音情感分类识别研究中,我们以新的模型为基础提取语音特征参数,以序列分类和聚类方法为主要工具来进行研究。在研究中,我们引入了序列分类、聚类的方法,并对相关算法进行相应的、卓有成效的改进和完善。 我们将序列GMM分类方法应用到语音情感分类和识别中。根据语音序列和分类的特点,我们创新地提出了观测值次序均衡的评分方法,并在次序均衡中引入了功能因子,以满足多元的分类要求。GMM的序列分类方法在GMM模型的基础上对序列进行评分,并根据模型参数将评分映射到评分空间,最后使用支持向量机等分类器进行分类。在现有的序列GMM分类方法中,序列评分方法没有体现语音序列的顺序和时长伸缩差异。我们提出了次序均衡的方法来克服这些缺点。实验结果证明,改进的序列GMM方法在语音情感分类识别中正确率得到了明显的提高,并远优于传统的以帧为基本分类单位的分类方法。 在语音情感分类的研究中,我们还创新地引入基于矩阵的分类思想和方法。基于矩阵的序列分类方法的核心思想是通过序列到矩阵的映射,以矩阵来表示特征序列,从而将序列的分类转化为矩阵的分类。针对语音序列分类,我们提出了有限平均映射、时长无关映射和时长相关映射的序列到矩阵映射方法,并提出模型层面的特征融合方法。在语音的情感分类实验中,基于矩阵的改进序列分类方法的分类正确率比经典的基于支持向量机的语音情感分类方法提高了28.65%。 最后我们应用改进的矩阵序列分类方法,对情感语音的声道时变特征进行深入的分析。
其他文献
老年性痴呆,又称阿尔茨海默病(AD),是一种可引起脑功能逐渐衰退的神经性疾病。随着我国人口老龄化进程的加快,AD发病率呈逐年上升趋势。尽管AD的发病率逐年提高,但存在着性别上的
GaN基多量子阱(MQW)发光二极管(LED)由于其效率高、寿命长、体积小、易集成、驱动电压低、无污染、节能环保等诸多优点被誉为新一代通用照明光源。目前的研究表明,富In类量子
学位
热休克蛋白(heat shock proteins,HSPs)作为一种分子伴侣,参与蛋白的正确折叠、聚合、转运和信号传递等重要生理过程。近年来,HSPs已应用于神经退行性疾病、心血管疾病、肿瘤等
学位
Si基微电子学在计算机、通信、自动控制等诸多领域发挥着不可替代的关键作用,但由于电子瓶颈的限制,需要发展Si基光子学。SiGe系材料的能带结构能调整,量子效应可以人工剪裁。利
学位
光电经纬仪是航空航天测量控制系统中的重要测量设备,用以实现对目标的测量和跟踪。对于采用复合轴控制的高精度跟踪系统,精跟踪控制分系统是整个ATP(瞄准、跟踪、捕获)系统的
边缘检测技术在图像处理中占有重要的地位和作用,因为边缘检测是图像分割的核心内容,而图像分割又是从图像处理进入图像分析的关键步骤,也是图像理解的基础。目前已成为机器视觉
双尾-C基因(Bicaudal-C)首先在果蝇(Drosophila melanogaster)中发现,其功能丧失导致果蝇胚胎滤泡细胞的错误迁移、头部的缺失和双尾结构的形成。后来发现多个物种都含有Bica
学位
γ-氨基丁酸(GABA)是中枢神经系统中有效的抑制性神经递质,具有降血压、增进脑活力、营养神经细胞、保持神经安定、促进生长激素分泌和保肝利肾等作用,目前在医药和保健食品中
随着汽车消费的普及与电子科技技术的发展,汽车电子产品已成为汽车行业的新宠,而汽车安全配件则尤其受人们关注。疲劳驾车是当前导致车祸事故的最主要的原因。驾驶员疲劳检测
近年来在Si(111)衬底上生长GaN材料受到了广泛的关注,但由于Si衬底与GaN外延层之间的热应力所引发的裂纹问题却严重的阻碍了该技术的发展。本论文主要对采用MOCVD设备在Si(111
学位