论文部分内容阅读
语音情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音帧的时序特征,但单独使用其中的任何一种均不能有效地表达情感信息。为了有效地融合长、短时情感信息,本文首先提出使用“语段特征”用于识别,并给出了针对各类情感的“最佳识别语段长”。为进一步提高识别性能,我们还构建了一种全局控制Elman神经网络(Global Control Elman Neural Network)用于将全局统计特征与基于语段的时序特征有效地融合起来。实验表明,融合了长短时特征的系统识别率较单独使用各类特征均有明显提高。