基于压缩感知的语音情感识别技术的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:fcunui_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和网络通信的快速发展,人们已经不仅仅局限于对信号的准确获取上,更期望对信号进行深度的挖掘,这是信号领域的一场革命。语音作为人类交流和人机交互最重要的一种工具,语音信号的识别和情感分析在互联网、通信、人工智能等等高科技领域中变的日益重要,因此专家们在语音信号识别和情感分析方面进行了大量的工作,在这些研究方向中,语音内容的识别日益趋于成熟且已经商用。虽然近些年针对语音情感识别的研究,相当多的研究成果得以发表,取得了很大的发展,但是语音情感识别研究仍处于初级阶段,一直没有形成一套被广泛认可的、系统的理论和研究方法。此外,实际生活中大多语音信号都处于噪声环境中,而传统的语音情感识别算法大多针对于纯净语音,因此寻找一种具有较好鲁棒性的语音情感识别技术迫在眉睫。压缩感知是近些年提出的一种新型采样技术,且基于压缩感知提出的稀疏表征识别算法在图像和语音识别领域展现出优异的识别性能。语音情感信号在小波等变换域中具有较好的稀疏性,因此将压缩感知技术应用于语音情感识别中,具有较强的理论基础。此外,压缩感知重构算法对信号中的噪声有一定的抑制作用,而针对噪声环境下语音情感识别的研究较少。基于上述分析,在现有研究的基础上,我们将压缩感知技术与语音情感识别相结合,使语音情感识别系统性能的进一步提升成为可能,具有重大的理论和实际应用价值。本文开展了针对纯净和噪声环境下,基于压缩感知的语音情感识别研究,具体工作内容如下:1)通过深入研究语音情感识别系统理论和压缩感知算法,将压缩感知应用于语音情感识别领域,研究了基于压缩感知的语音情感识别算法。仿真实验表明:与经典的GMM语音情感识别算法相比,基于压缩感知的语音情感识别系统在低信噪比时可以取得更好的识别结果。实验结果验证了将压缩感知应用于语音情感识别这一思路的正确性,拓宽了语音情感识别算法思路。2)为进一步提升纯净及噪声环境下语音情感识别系统的识别性能,本文研究了一种压缩感知抑噪语音情感识别系统。首先采用压缩感知技术对带噪语音进行稀疏重构,进而提取稀疏重构后信号的声学特征,最后将特征输入到传统的GMM分类器中。仿真实验表明:与不采用压缩感知语音抑噪的情感识别系统相比,本文提出的方法能够取得较大的识别增益,识别率提升了 5到32个百分点。3)为进一步提升语音情感识别系统的性能,本文针对压缩感知稀疏解存在的缺陷,提出了一种基于稀疏贝叶斯学习的语音情感识别算法。首先将语音信号提取参数特征,经稀疏贝叶斯学习进行参数向量重构,然后使用重构的参数向量与情感码本计算重构距离,进行情感分类。仿真实验表明:稀疏贝叶斯学习算法可以更加接近l0-范数的解,与FOCUSS、BP相比具有较小的重构误差。实验证明将稀疏贝叶斯学习算法应用于语音情感识别系统,提升了识别系统的性能,显示了该算法在语音情感识别领域的应用潜力。在本文最后部分对论文所有的研究和成果做了总结,并对日后的研究工作进行展望。
其他文献
输送机广泛应用在机械工程领域中,为各种应用提供物料输送功能。目前,对其传动质量、工作效率等要求越来越高,故对输送机进行在线监测和故障诊断的深入研究意义重大。本文通
干扰问题是LTE-A网络的倍受关注的问题。LTE-A为了解决小区边缘用户干扰严重的问题,提出了 ABS、CRE、载波聚合以及CoMP等技术。CoMP技术以小区共享信息为基础的协作处理方式
车载热成像行人检测是高级驾驶辅助系统的关键技术之一,也是计算机视觉领域的热门研究方向。热成像不受环境光照条件影响,对低能见度鲁棒,受到广泛重视。由于背景动态复杂、
目的:研究糖有氧供能为主条件下、连续负重游泳过程中,大鼠肾脏Cr、SOD、MAD、BUN指标以及Bcl-2、Bax表达变化过程,探讨连续负重游泳运动对肾脏的影响,探究疲劳积累过程及其
由于移动数据流量呈指数型增长和用户体验要求不断提高,现有的传统蜂窝网络已经不能满足用户的需求。传统蜂窝网络主要用于广域覆盖,对热点区域、覆盖盲点和室内区域等无线场
图像分割是计算机视觉领域的热门研究课题,而阈值分割方法因其简捷与高效的特点而受到学术界长期的关注。但如何有效地自适应地选取模糊、带噪声图像的最优阈值仍然是一个具
我国是一个统一的多民族国家,各民族在历史发展进程中形成了灿烂多彩的民族文化并积淀了丰富的社会治理智慧。目前,我国致力推进国家治理体系和治理能力现代化发展战略进程中,深入挖掘我国各少数民族优秀传统文化资源,通过积极引导并发挥其参与乡村治理作用,不断加强对民族地区乡村治理体系的完善和创新,构建民族地区自治、法治、德治相结合的乡村治理体系,推动民族地区乡村治理有效发展。本文以冕宁县彝区“德古”参与乡村治
大规模MIMO作为5G的关键技术之一,具有分辨率强、发射功率低以及抗干扰能力强等优点。但是大规模MIMO系统也存在导频污染严重的问题。采用大规模MIMO系统时,小区基站会接收到
微机电系统(Micro Electronic Mechanical System,MEMS)陀螺仪是一种重要的惯性器件,近些年来发展迅速,并且在实际当中也得到了较多的应用。但是,MEMS陀螺仪依然存在着噪声大
本论文为汉译实践报告,翻译材料选自俄罗斯联邦政府于2019年9月20日发布的《2035年前俄罗斯联邦旅游发展规划》,对该文本进行翻译可以使我国了解到2035年前俄罗斯旅游业发展的侧重点,进一步推动中俄旅游的合作与发展,且对我国制定旅游发展规划具有借鉴意义。此外,通过对文本案例进行分析和研究,能够总结出该类公文事务语体文本中常见的翻译技巧与特点,有助于笔者自身翻译能力和水平的提高,也能为翻译同类文本