论文部分内容阅读
近年来,语音交互技术迎来了新的发展高潮。语音交互技术的性能得到了极大提升,语音交互技术的产品层出不穷。语音识别是语音交互系统中的前端处理模块,其性能对语音交互系统的性能非常重要。但是,传统的语音识别在交互方面仍然存在一定的不足,不能适应新产品的需要。比如,其交互的内容仅是转写文本,存在信息缺失的问题;其输入方式是按压或点击,存在操作不方便不自然、并且易受空间距离、环境光线影响的问题;其输出方式是在整句语音被完全输入并完全识别后才输出转写文本,存在响应不够快速的问题。其较少的交互内容和不自然的交互方式不利于用户的体验。 因此,本文以提高语音交互的友好性为目的,主要围绕语音识别中更丰富的交互内容,和语音识别中更方便自然的交互方式这两个方面进行了研究和探讨。下面是本论文的主要创新点和贡献。 1.在基于文本的语气识别上,本文提出了基于全局词汇信息的语气识别方法。该方法使用全局词汇信息从三个不同的句子粒度上对句子进行了建模,并使用多层感知机对不同粒度的建模结果进行了融合,实现了对单句口语文本的语气识别。实验结果显示,该方法优于基于隐事件语言模型、条件随机场等使用局部词汇信息的方法,也优于基于循环神经网络语言模型方法。 2.在基于语音的语气识别上,本文提出了基于声调特征和韵母特征的语气识别方法。该方法在基于声学特征、韵律特征和语调特征的语气识别方法的基础上,通过增加声调、韵母相关的特征来进行语气识别,并利用决策树进行特征选择来进一步优化特征。实验结果表明,这些增加的特征以及特征选择方法都能提升语气识别的准确率。 3.在语音活动检测上,本文提出了一种基于子空间高斯混合模型和音素合并的语音活动检测算法。该方法在音素识别的框架下,使用子空间高斯混合模型进行声学建模,使用基于专家知识和数据驱动的方法进行建模单元的确定;该方法可以直接利用语音识别的现有标注数据训练模型,减轻标注负担。实验结果显示,与强制对齐语音识别结果所产生的语音静音结果相比,该方法的帧错误率减小了约一半左右。 4.在增长式语音识别上,针对输出结果不稳定的问题,本文提出一种基于稳定时间预测的解决方法。该方法使用连续多帧的N-best路径的声学打分信息预测当前输出结果在将来的稳定时间,从而可以提前判断当前输出结果的稳定性。实验结果显示,该方法减小了算法的时间延迟,也即提高了算法的稳定性。 5.在语音交互的基础技术基频提取上,本文提出了一种改进的基于自相关函数的基频提取算法。该方法在原始自相关函数方法的基础上,通过利用语音频谱的纹理特征来提高正确基频值的权重,利用增加候选基频的个数来增大搜索空间,以及利用可靠种子来限制搜索路径这三项措施增加了正确基频值在搜索空间中的出现比例和权重,优化了搜索空间。实验结果显示,该方法改善了原有基频提取算法的性能。