语音情感识别中的特征提取与识别算法研究

被引量 : 0次 | 上传用户：ccb332

【摘要】

：

随着电子技术的广泛发展,用户已经不再满足于只使用键盘、鼠标、开关等机械的冷冰冰的交互方式。虽然说最近触摸屏技术得到快速的发展,使人机交互更便捷,操作形式更多样,但是

【作者】

：

孙亚新

【发表日期】

：

2015年期

【关键词】

：

语音情感识别谱特征特征选择 Softmax 集成分类器稀疏表示分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着电子技术的广泛发展,用户已经不再满足于只使用键盘、鼠标、开关等机械的冷冰冰的交互方式。虽然说最近触摸屏技术得到快速的发展,使人机交互更便捷,操作形式更多样,但是人们普遍希望人机交互过程更人性化、更智能化,人机交互界面更友好、更生动,这样必然需要计算机具有与人相似的思维感知能力。显然,使计算机能够理解人类的情感是完成上述任务非常重要的一步。语音作为人类交流的重要媒介,是人类传递信息的最基本途径;另外,目前针对语音的传感器已经发展得非常成熟,在获取人类语音信号时,几乎不需要当事人的任何配合。所以语音情感识别就显得尤为重要。语音情感识别的目的是使计算机从人类的语音信号中发现人的当前情感状态,让机器能理解人的感性思维,从而使计算机具有更人性化更复杂的功能。语音情感识别是一种典型的模式识别问题,通常包括三个关键的步骤:语音特征提取,维数约减,分类。本文针对这三个步骤都做了一定研究,主要贡献有:(1)本文提出一种基于Hu矩的加权谱特征(HuWSF)。特征提取算法对语音情感识别算法的影响非常大,其中Mel频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)是语音情感识别中最常用的特征。但是MFCC没有考虑同一帧Mel滤波结果相邻系数之间的关系以及同一帧Mel滤波结果同一系数相邻帧之间的关系,这样可能会丢失语谱图中较多有用的信息。Hu WSF能够克服MFCC的上述缺点。动机来源于两方面:首先,在不同的语音情感下,说话强度、说话清晰度、基音频率的变化程度、说话速度等都有着非常明显的变化,这些变化会改变语谱图中能量集中到某些频率的程度。而在语谱图的局部区域计算的Hu矩,能够很好的评价能量如何集中到语谱图中的一些频率的程度。其次,语音情感识别很容易受到说话人、说话风格、说话内容的不同的影响。而Hu矩具有平移、尺度、旋转不变形,使得Hu WSF能够很好的减少这些负面影响。通过在柏林语音数据库(Berlin emotional speech database,Emo DB),Surrey视听表情情感数据库(Surrey Audio-Visual Expressed Emotion Database,SAVEE),中科院自动化所语音情感数据库(CASIA)等三个数据库上的实验证明了Hu WSF的有效性。(2)本文提出了一种基于半监督特征选择和说话人归一化的语音情感识别方法。特征选择算法是语音情感识别中最常用的维数约简算法,但是目前用在语音情感识别中的大部分特征选择算法都是基于贪心算法的有监督的特征选择算法,不能够考虑数据的整体结构、数据的流形结构、以及无标签样本提供的信息。为了克服上述缺点,本文提出一种半监督的特征选择算法,该算法能够同时利用上述所有信息。但是因为语音情感数据的流形结构受到多种因素的影响,如情感、说话人、语句的内容等,导致使用数据流形结构的特征选择算法并不能直接用于语音情感识别。所以在使用半监督特征选择算法之前,应该先减少其它因素对语音特征提取结果的影响。说话人归一化算法是常见的减少说话人对语音情感识别影响的方法,但是传统的说话人归一化算法每个测试说话人都需要较多的无标签样本,这在大部分实际应用环境中难以实现。为了克服这个缺点,本文提出一种两阶段的说话人归一化算法。第一阶段使用所有训练样本的均值和方差对语音数据归一化,第二阶段只使用新的测试说话人的均值对语音数据归一化。因为均值在归一化中只用为偏移量,使得归一化的结果受均值的影响相对不敏感,这样就可以使用少量的样本获得较好的说话人归一化效果。在Emo DB、SAVEE、CASIA等三个数据库上的实验结果,证明了上述算法的有效性。(3)本文提出了一种集成Softmax回归模型的语音情感识别(ESSER)方法。目前已经有较多的集成分类器用于语音情感识别,但是这些集成分类器依然面临着较多的问题,如基分类器的多样性不能保证、基分类器的强度不足、维数灾难等。为了克服上述问题,本文提出ESSER识别语音情感。首先注意到一些特征提取算法的原理相差较大、以及单个特征并不能充分描述语音信号,所以使用不同的特征组合生成子空间,可以确保子空间的多样性;同时因为子空间的维度比所有特征连接成的特征维度要低,这样在一定程度上也克服了维数灾难的问题。然后注意到在子空间的多样性得到保证时,使用强的分类器可以提升集成分类器的效果;并且发现在大部分语音情感数据库上,Softmax都有较强的语音情感识别能力;所以使用Softmax作为集成分类器的基分类器。另外因为Softmax的分类结果是测试样本到各个类的概率,所以使用Softmax作为集成分类器的基分类器还可以为基分类器的集成提供更多的信息。在Emo DB、SAVEE、FAC Aibo等三个数据库上的实验结果,证明了该算法的有效性。(4)本文提出了一种基于流形学习和稀疏表示分类的语音情感识别方法。目前已经有一些基于稀疏表示的分类器用于语音情感识别,但是这些方法要么直接将原始数据用为字典,要么针对每个类单独训练字典,从而不能充分利用训练数据的类别标签。为了克服这个缺点,本文提出一种有监督维数约减算法学习字典,这样可以使字典携带较多的分类信息;同时又减小了字典的基的维度,可以大大加快稀疏表示分类的速度。但是因为语音情感特征受到较多因素的影响,如说话人、说话风格以及说话内容等,导致同一情感的样本之间的距离可能较大,使得在优化这些样本之间的距离时,对传统的有监督的维数约减算法的目标函数影响较大,所以传统算法不能直接用来学习字典。为了克服上述缺点,本文提出一种新的有监督维数约减算法,该算法在计算类内矩阵、类间矩阵、以及样本之间的流形结构时均考虑了数据的局部性,避免了优化同一情感样本之间的距离对目标函数造成的较大影响。另外为了使语音数据的情感流形结构更突出,该算法使用自调整点对点之间的距离描述样本之间的关系。最后,为了充分利用有监督维数约减算法学习到的字典的信息,本文改进现有的加权稀疏表示分类算法,对稀疏表示系数加权时使用自调整点对点之间的距离。在Emo DB、SAVEE、CASIA等三个数据上实验证明了这些算法的有效性。

其他文献

“软”“硬”兼施打造高品质声音——解析《我是歌手2》总决赛的声音制作

介绍电视节目《我是歌手2》的声音制作要点,包括系统组成、设备选用、音响团队、声音效果以及电视播出等。

期刊

声音制作音响系统设备选型团队合作电视节目

迟延履行执行和解协议纠纷与执行权的审查范围

对执行和解协议履行纠纷,何种情况下可提起诉讼主张权利,何种情形下可申请恢复原生效文书的执行,并且对执行和解协议约定内容已履行完毕但存在迟延履行瑕疵的,究竟是恢复原生

期刊

执行和解协议执行权审查范围

央行公开市场回购操作对货币市场基准利率的影响

货币市场基准利率作为整个市场利率体系中其它利率变动的基础,可以充分地表现市场流动性的需求和供给。因此,在我国利率市场化的进程中,进一步维护基准利率稳定运作,不断完善

学位

基准利率EGARCH模型回购操作协整检验误差修正模型

基于高光谱成像技术的多指标综合决策香蕉品质等级研究

香蕉是世界上栽培最为广泛和贸易销量第二大的水果,深受广大消费者的青睐。但由于香蕉品质检测技术跟不上香蕉产业现代化的步伐,香蕉品质不能获得有效保证,使得“蕉癌”和“

学位

高光谱成像技术(HSI)香蕉成熟度褐变程度营养成分

网购食品质量安全信号传递的博弈分析

网购环境存在着较传统市场环境下更为严重的食品安全信息不对称,由此导致的逆向选择问题更加突出。本文通过构建网购市场中食品质量安全信号传递博弈模型,分析网络食品卖家与

期刊

网购食品安全信号传递博弈分离均衡

一见粽情节日食品零食化包装设计研究与实践

包装设计是产品生命的延续，是其地区文化的推广与传播的载体。本课题以“一见粽情”节日食品零食化包装设计探析与研究为研究对象，通过研究国内外粽子产品市场现状以及粽子包装

学位

粽子零食化包装设计包装设计传统文化情感化设计

柚皮苷及其金属络合物与脉冲电场协同杀菌作用研究

本文以酿酒酵母为研究对象，研究了柚皮苷与脉冲电场技术相结合对微生物的协同致死作用。首先通过络合反应生成了两种柚皮苷-金属络合物，在此基础上分别探究了柚皮苷及其金属络

学位

柚皮苷柚皮苷络合盐脉冲电场协同杀菌作用非热处理

4-α-糖基转移酶作用于脱支淀粉制备大环糊精的研究

本课题以不同来源的天然淀粉为原料，通过异淀粉酶和4-α-糖基转移酶的共同作用，制备大环糊精。对分离纯化得到的4-α-糖基转移酶进行纯度鉴定和酶学性质研究并确定了最佳的淀粉

学位

4-α-糖基转移酶大环糊精淀粉脱支转化率最小聚合度

客家黄酒中氨基甲酸乙酯的研究

广东客家黄酒又称客家娘酒，是客家古文化和酒文化相结合的精华，是岭南一带客家人民间传统发酵型黄酒。但是作为发酵类饮品的客家黄酒，其中存在的EC是危害人类健康不可忽视的因素

学位

客家黄酒氨基甲酸乙酯尿素酸性脲酶

基于电子商务环境下的库存—路径问题优化研究

近年来,随着网络技术和信息技术的高速发展,电子商务作为一种新兴的商业模式正在渗透到人们的生活之中。电子商务行业的兴盛直接带动了物流行业的发展,物流已经成为各大电子

学位

电子商务环境集中订货策略库存-路径问题双编码遗传算法

语音情感识别中的特征提取与识别算法研究

与本文相关的学术论文