论文部分内容阅读
随着信息技术的发展,使人与机器用自然语言进行对话的梦想一步步接近实现,人们对交互能力的要求也越来越高。简单的语音内容的识别已经不能满足人们的要求,让机器识别和理解语音中的情绪已经被看作最重要的问题之一。
本文首先详细介绍了语音情绪识别的现状以及机器宠物、语音、情绪等方面的概念;概括介绍了语音识别的基本知识;并简单介绍了colea软件、录音软件cool edit和Matlab软件及工具箱等。
本课题主要从实用角度,面向个人机器宠物,通过录制四个人常用话语建立语音库,并提取语音情绪特征。本文详尽的论述了五个特征 (即能量均值、能量曲线局部极点个数、发音的持续时间、基音频率均值和平均过零率)的提取方法,并对比其他文献,论证其在本课题实现上的优越性。情绪分类过程中,介绍了常见方法的基本原理,包括主元分析法、混合高斯模型法、矢量量化和支持向量机方法。重点说明模板匹配法的使用和优势。
课题的实现是在仿真智能机器宠物的识别并学习过程,软件的编制主要采用Matlab实现语音情绪分类并构建情绪模板进行识别,取得85%以上的识别率。而后对识别的结果通过人工神经网络进行学习、训练形成一定的知识库以进行进一步的识别,可达到90%的识别率,个别情绪识别率已经超过95%。
本文在识别过程中,大略的讨论课题相关的聚类分析和模糊理论以及对课题以后的发展有很好的启发性。识别后学习算法,提到了常见的学习算法,以及隐马尔可夫模型,人工神经网络。
本文在最后讨论了语音情绪识别的发展,以及与其他领域的融合,包括表情识别以及姿态识别等。