基于倒谱距离特征和卷积神经网络的语音情感识别研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:dannychan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迭代式发展并延续人类的智慧是人工智能的基本出发点,也是它对人类最有意义的一点。在人工智能的“智能”方向上,大量的研究成果使得机器在智能的某些方面甚至超过了人类。但在情感方面,机器甚至不如两岁的孩子。因此,情感是机器人革命的标志,是机器人进入社会的关键。在人机交互中,语音无疑是最自然的交互方式。能在语音中获取情感信息,并用此信息支持机器人的一系列决策是情感计算的关键。针对语音中情感的识别,语音特征和模型都是从语音识别或模式识别领域直接套用,其用于处理语音中多情感识别的效果十分有限,且达不到在实际的机器人上应用的水平。本文提出了在语音特征和语音模型、优化方法等方面提升语音中情感的识别能力,并将成果应用于机器人平台,为机器人不仅赋予其智能,也赋予其情感、心智。本文的工作主要有:(1)针对从语音识别领域转来的传统语音特征只能表征语音信号本身的问题,提出一种新的表征情感属性的语音特征并与经典特征、机器学习出的分类策略进行综合集成应用于语音情感识别;(2)对于经典的SVM(支持向量机)对多分类问题建模能力薄弱的事实,本文研究了多分类问题(不仅仅限于语音信号)的建模。针对多分类问题中分类不均衡的问题,提出了一种两阶段的分类策略,很好地解决了该问题。最终实验结果在国内外研究中处于领先水平。(3)总结并反思上述研究依赖研究人员先验经验的特性,本研究试图寻找一种在语音信号中自适应、自学习情感特征的模型。因此,本研究将多次试验后得到的最优特征与深度学习中的卷积神经网络模型CNN整合获得目前研究中最优的识别率97.6%,并利用ADA-DELTA算法提高收敛速度。
其他文献
20世纪80年代后,随着大规模芯片集成技术和数字信号处理技术的高速发展,现代电子系统中,无线收发信机的应用越来越广泛。同时对无线收发信机的抗干扰能力和灵活性也提出了愈
合成孔径雷达(Synthetic Aperture Radar, SAR)图像舰船检测与分类是SAR图像解译技术关键问题之一,也是海洋遥感应用的重要研究方向,在渔业管理、海上交通管控、海洋资源开采
在很多实际的研究和应用中,数据往往以高维度的向量来表示,即所谓的“高维数据”,而这些高维数据通常可以由少量几个影响因素来表示,这就说明现实中的高维数据包含了大量的冗
合成孔径雷达(SAR)作为一种高分辨、全天时、全天候的遥感工具,对国防技术现代化和国民经济建设有非常重要的意义。聚束式合成孔径雷达是SAR的一种高分辨率成像模式,它可以获
合成孔径雷达(Synthetic aperture radar,SAR)是遥感技术发展的一大成就,由于其自身独特的优势和巨大的应用价值,得到了广大遥感领域研究者的关注和重视。由于合成孔径雷达技
三维人脸建模一直以来都是计算机视觉领域研究的热点,随着科学技术的不断发展,三维人脸建模方法更是多种多样。大部分三维人脸建模方法在采集人脸信息时,都需要人脸以固定的
近年来,随着存储需求的不断扩张以及存储成本的居高不下,外包存储的应用已经变得越来越普遍。现在,用户可以以相对较低的成本将大量数据存储在多台异地服务器上。越来越多的
三维(Three dimension,3D)视频是正在兴起的一种媒体形式,并处于蓬勃发展的阶段。相比于传统的二维视频,三维视频能提供所观察物体的深度信息,从而使用户产生立体视觉的体验,
快速跳频(FFH)技术作为一种重要的通信抗干扰技术在军事和商业上都有很广泛的应用。分集合并技术是FFH系统的关键技术之一,分集合并可以提高FFH系统的抗干扰性能、抗衰落性能
空时编码作为多输入多输出传输系统中主要使用的编码方式,近年来得到了广泛的重视,成为了研究的热点。而随着通信系统的迅速发展以及信道环境的复杂化,获取精确的信道状态信