基于语音信息的情感识别技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:atta2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的蓬勃发展,对于语音识别领域及图像处理领域的研究也日渐广泛与深入。为了使机器更加智能,能够捕获人类的情感以使人机之间的语音交互更加人性化,对于语音情感识别(Speech emotion recognition)领域的研究逐渐得到了人们的关注。目前,围绕语音情感识别的研究大多采用深度学习方法,这些方法只是简单地将语谱图作为卷积神经网络的输入,使用图像识别技术实现识别,使得识别效果欠佳。为此,本文重点围绕语谱图的特征提取方法和改进CNN识别模型展开研究,主要研究工作如下。首先,针对语音特征提取技术,本文提出了一种利用二维Log-Gabor变换和改进的LBP算法进行语谱图提取的方法,先将语谱图进行归一化和灰度化,然后再通过二维Log-Gabor变换对灰度化的语谱图进行不同方向和尺度上的纹理细节的放大,以此来解决生成的原始语谱图的纹理细节特征不明显的问题,之后借助改进的LBP算法来对这些灰度语谱图进行纹理特征的提取。其次,针对情感识别模型,本文结合残差结构设计了残差卷积神经网络(Residual convolution neural network)模型。相比于传统的卷积神经网络,Residual CNN通过在CNN中加入残差结构来解决因为卷积层层数增加而造成的特征丢失的问题,因此有效防止了卷积神经网络由于特征丢失而导致的识别准确率下降。最后通过在经数据样本扩增后的EmoDB数据集上的实验,先验证了基于二维Log-Gabor变换和改进LBP算法提取的特征对于提高识别准确率相比于传统的几种特征更有效之后,又通过实验验证了本文设计的残差卷积神经网络模型相比于未引入残差结构的卷积神经网络模型在提高训练收敛速度和识别准确率以及分类精度上的表现要更优。并且在此基础之上还通过实验得出了对语谱图添加合适的高斯噪声也能对识别率有一定的提升。综上,通过本文的研究,为提升语音情感的识别率提供了一定参考。
其他文献
咔唑及其衍生物是一类五元氮杂环化合物,特殊的稠环结构使其具有独特的生物活性和光物理性质,在药物、农药以及材料等多个领域都有着广泛的应用,因此,开发新型咔唑及其衍生物的合成方法具有重要意义。目前报道最多的主要是通过吲哚的环化反应或联芳基化合物的C-H胺化反应来构建咔唑化合物。其中,钯催化联芳基卤化物与不同类型胺化试剂的分子间C-H胺化反应被证明是构筑咔唑的一种有效方法。然而,要想获得特定位点带有特定
学位
伴随现代电子通信行业的高速发展,迎面而来的挑战是可用的频谱资源愈发紧缺,因此频谱资源的利用率怎样提升就成为了很重要的研究方向。并且为了能够高质量传输信号需要做到良好的群时延,所以可重构线性相位接收前端具有重要的研究意义。本文的研究目标是研制一款C波段可重构线性相位接收前端,其中接收前端主要包括低噪声放大器以及可重构线性相位滤波器两个核心部件。通过对两个核心器件的分析研究,从而研制出一款能够在中心频
学位
二氧化碳(CO2)过度排放导致的环境和生态问题日益引起人们的关注。尤其是2020年我国首次提出CO2排放力争于2030年前达到峰值,努力争取2060年前实现碳中和的战略目标,因此开发高效CO2利用技术迫在眉睫。CO2具有无毒、易获得、廉价和可再生等优点,可作为C1原料参与化学反应。利用CO2和环氧化物环加成制备高附加值的环状碳酸酯是最有前景的CO2利用技术之一,且该反应100%原子经济,具有环保优
学位
在如今经济全球化,“一带一路”蓬勃发展的大背景下,不同国家地区、不同语种人群之间的文化、学术、商贸和政治等方面的交流日益频繁。而通用领域场景下的机器翻译模型已无法满足更加多元化、深层次的跨语言交流需求。为解决多领域翻译的领域适应问题和多领域多模型的成本问题,本文结合终身学习算法,进行多领域翻译任务持续学习的研究,提出了面向终身学习的机器翻译系统。在面向终身学习的机器翻译系统研究过程中,本文的主要工
学位
近几年,世界被笼罩在一种名为SARS-Co V-2(COVID-19)的新型冠状病毒阴霾下,为了阻断病毒传播,世界卫生组织(WHO)大力倡导使用个人防护设备(PPE),尤其是佩戴口罩。然而,现有的口罩、手套、防护服等仅作为人体与空气之间的一层物理屏障,并不能直接起到消杀功效。为此,本文基于绿色高铁酸钾的高氧化活性,开展了这方面的尝试。提出了制备较高纯度高铁酸钾和纳米高铁酸钾的方法,解决了高铁酸钾在
学位
随着图像处理技术在人工智能、机器视觉和工业控制领域的高速发展,图像匹配技术逐渐成为众多科研学者研究的热点之一,现如今匹配技术广泛应用于图像拼接、配准以及工业中产品的质量检测等重要场景中。其中SIFT算法成为众多学者研究的重点,因为对于SIFT算法本身具有尺度不变性、旋转不变性和光照不变性等特点。目前学者对于图像匹配系统的研究主要集中在软件层面,通过高级编程语言来提高匹配算法的效率,但是这种方式容易
学位
以波音747、空客340为代表的现代大型客机,其机载电子设备种类和数量愈加庞大,导致机载网络规模和结构的复杂程度大幅提升。本课题来源于某民机航电总体所承担的国产大飞机客舱网络仿真平台项目,开展机载网络拓扑发现研究,掌握国产大飞机客舱网络设计自主关键技术,实现对机载网络设备的高效配置和管理。本文开展了快速生成树协议和链路层拓扑发现技术的研究,设计并实现了机载网络拓扑发现系统,主要工作和特色如下:首先
学位
本论文研究了8-甲基喹啉C(sp~3)-H选择性的碘化和乙酰氧基化反应。论文共分为两章:第一章喹啉类化合物官能团化反应的研究进展喹啉是一种用途广泛的杂环化合物,是许多天然产物和药物的组成部分。在过去的几十年里,这种骨架也被广泛应用于药物、农药、功能材料以及过渡金属催化剂的配体中。因此,开发高效、区域选择性的合成方法获得官能团化的喹啉类化合物具有重要的意义。目前,过渡金属催化的C-H活化是最简便、高
学位
受限场如何调控高分子链的静态和动态性质不仅是高分子物理学中一个重要的科学问题,还是生命科学中关注的焦点之一,例如,蛋白质分子如何在体内有效折叠?尽管一些工作研究了大分子在受限场中的折叠行为,然而对于不同性质的高分子链,受限空间的几何性质和排斥体积效应如何影响单链高分子的稳定性、结构以及标度行为等仍不十分清楚。为了阐明柔性和半刚性高分子链在受限空间中的折叠行为,本论文主要开展了以下两个方面的研究工作
学位
行人重识别是一种行人图像匹配技术,用于行人搜索或多目标多摄像头跨镜追踪。由于数据集制作成本高昂,因而基于无监督学习的行人重识别方法逐渐成为研究的热点。目前,在小数据集上基于自监督学习的行人重识别研究,大多是对基于自监督学习的分类任务的简单迁移,缺少网络架构各个部分,在自监督学习的行人重识别任务中,的差异性研究,也缺少对行人重识别数据集特征的研究。针对这些问题,本文围绕常用的损失函数NT-Xent展
学位