基于特征融合的语音情感识别方法的研究

来源 :东南大学 | 被引量 : 11次 | 上传用户:jht20007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感识别是情感计算的重要组成部分,近年来关于情感识别的研究越来越受到重视,而语音作为人类日常生活中最重要的交流方式之一,其中蕴含着丰富的情感信息,因此有关语音情感识别的研究意义重大。语音情感识别技术有助于改善计算机的人机交互能力,具有极为广阔的应用前景。本文主要研究了基于特征融合的语音情感识别方法,提取了谱特征、韵律特征、音质特征等,对其情感识别能力进行了分析,并提取了近似最优特征子集用于后续研究。特征融合指的是将谱特征、韵律特征、音质特征等不同特征类型进行结合。传统特征融合方式只是特征降维后的简单组合,未能对各特征类型在分类能力上的差异进行深入探索与利用,本文借鉴数据融合的相关概念,分别从判决层融合与特征层融合两个角度出发提升了特征融合系统的识别效率。其中判决层融合使用了改进核函数的SVM-KNN模型与自适应权值算法,特征层融合使用了深信度网络(DBN),这些方法的应用成功提高了语音情感识别系统的识别率。本论文的主要研究内容和创新点如下:(1)阐述了语音情感识别的研究背景和意义,并总结了情感描述模型、情感数据库、情感特征参数、特征降维及情感分类算法等方面的国内外研究现状。(2)设计并录制了包含高兴、愤怒、悲伤、害怕、平静五种情感语音的语音数据库,并对其中数据进行了检验与听辨测试,保证数据的有效性。对语音信号进行了预处理,从中提取了261维特征用于实验研究。(3)基于Fisher相关算法、最大相关最小冗余算法进行了特征比较与传统特征融合。本文利用Fisher相关准则J1对所提取的谱特征、韵律特征、音质特征的情感识别能力进行了分析比较,并采用LDA变换后的散点图与KNN两种方法对其进行了进一步分析;利用最大相关最小冗余(MRMR)算法获得了特征降维后的融合特征集,实现了传统特征融合。(4)研究了基于核函数改进的SVM-KNN自适应权值判决层融合方法。本文首先构建了SVM-KNN分类器,然后基于组合核函数与量子群寻优算法改进了SVM的核函数,提升了SVM-KNN的判决性能,最后使用自适应权值算法对分类器结果进行融合即判决层融合,提高了系统的语音情感识别率。(5)研究了一种基于深信度网络(DBN)的特征层融合方法,设计了DBN21与DBN22两种特征层融合模型。本章中使用设计的DBN21对传统特征进行特征层融合,并与未使用特征层融合的基准模型进行比较,证明了特征层融合对提高系统识别率的作用;此外,本文还基于视觉注意机制提取了新的语谱图特征,并基于深信度网络对其进行了深入研究。本文首先利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征,然后利用DBN21对其进行特征层融合,验证了所提取特征的语音情感识别能力,最后利用DBN22对传统特征与新提取的语谱图特征进行了特征层融合,进一步提高了识别率。
其他文献
组网技术的优劣直接影响着空间通信系统的性能,而目前采用的1553B、IEEE802.4等总线技术已经无法满足日益增多的航天电子设备间的通信需求,因此设计一种新的组网技术势在必行。
连续波雷达具有具有体积小、重量轻、结构简单、分辨力高和无距离盲区等优点,线性调频连续波雷达和连续波测速雷达是连续波雷达中比较典型的两种应用,尤其是线性调频连续波雷达
随着无线移动通信技术的迅猛发展,移动通信给人们的生产、生活方式带来了深刻的变革。现有的无线网络技术,如Wi-Fi、WiMAX、TD-SCDMA、Ad Hoc等,都有各自的特点和适用的环境,
无线自组织网是一种无中心、多跳、临时组织的对等网络,由于它具有无需基础设施、快速组网的能力,因而被广泛应用于军事行动、地震等自然灾害或者偏远地区的救援行动等场合。 
随着行业和经济规模的发展,有相当部分的IT厂商与自动化厂商、制造型企业合并或紧密合作。同时,越来越多的MES关键技术的进步也使更多的印刷厂商加入数字化印刷的行列。如何将
采用通用运算放大器进行电路测量、放大电路等的设计时 ,常常需要较高的放大倍数或按一定的要求调整其放大倍数 .针对实际应用中存在的这些问题 ,对T形电阻网络在运算放大器
近几年来,随着多媒体技术以及网络技术的迅速发展,网络上的信息资源日益丰富,并且以图像信息和音频信息等多媒体信息为主。最近,多媒体信息越来越趋向多元化和综合化。以前,
合成孔径雷达(SAR)在民用和军事领域都有着广阔的发展前景和实用价值,SAR图像处理的关键技术成为了国内外的研究热点。因此,对SAR图像处理的关键技术进行研究具有重要的理论和