论文部分内容阅读
语音情感挖掘(Speech Emotion Mining)是机器学习、模式识别等领域的核心应用之一,其主要研究目标是围绕语音的信号分析、特征提取、算法模型建立,对叙述人产生的连续语音信号进行情感分类。在当前信息社会进程中,语音情感挖掘的研究不仅具有重要的理论研究意义,同时具有十分重要的工程价值。当前关于语音情感挖掘问题的相关研究较多,但是由于这些工作主要围绕某种特定语言种类或某特定数据集进行,很难具有普适性应用环节,这导致当下一些基于非中文语音情感数据的研究工作不能很好适应中文背景的挖掘任务。此外,由于语音情感类数据在收集与标注上的困难,导致当下可用于研究的数据规模较小、种类较为贫乏。本文的研究主要集中在基于中文语音的情感挖掘模型设计上,同时针对当前中文情感语音数据集存在的不足,设计可对其进行数据增强的策略。本文的主要工作包含:1、提出了一种以基于多层、多通道特征图作为输入,配合卷积神经网络(CNN,Convolutional Neural Networks)过程与门控循环单元(GRU,Gated Recurrent Unit)循环过程的神经网络结构:多通道卷积循环网络(MSCGNN,Multi-Channel Spectrogram Conv-GRU Neural NetWork)结构作为识别模型。依托于中科院自动化所录制的CASIA中文语音情感数据集(CASIA,Institute of Automation,Chinese Academy of Science)进行模型训练,并与相关的语音情感挖掘模型进行对比实验,最后实验表明了MSCGNN在中文语音情感挖掘任务上表现较为出色。2、本文创新的提出了一种借助于变分自编码器进行语音语谱图生成,再通过计算该图与各情感类别稀疏编码器的重建误差,从而实现对其标注情感类别的数据增强策略。最后通过实验证明了该数据增强策略对深度学习模型学习起到较好的作用。3、根据语音情感挖掘任务的特殊性以及实际应用中的需求,本文在最后给出了一套基于在线学习的中文语音情感挖掘系统的架构体系,并配以原型系统中任务处理过程以及客户端界面的相关展示。