口语语音交互关键问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：leneyao

【摘要】

：

近年来，语音交互技术迎来了新的发展高潮。语音交互技术的性能得到了极大提升，语音交互技术的产品层出不穷。语音识别是语音交互系统中的前端处理模块，其性能对语音交互系统的性

【作者】

：

陈萧

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

语音识别口语交互语音活动检测韵律特征循环神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，语音交互技术迎来了新的发展高潮。语音交互技术的性能得到了极大提升，语音交互技术的产品层出不穷。语音识别是语音交互系统中的前端处理模块，其性能对语音交互系统的性能非常重要。但是，传统的语音识别在交互方面仍然存在一定的不足，不能适应新产品的需要。比如，其交互的内容仅是转写文本，存在信息缺失的问题;其输入方式是按压或点击，存在操作不方便不自然、并且易受空间距离、环境光线影响的问题;其输出方式是在整句语音被完全输入并完全识别后才输出转写文本，存在响应不够快速的问题。其较少的交互内容和不自然的交互方式不利于用户的体验。　　因此，本文以提高语音交互的友好性为目的，主要围绕语音识别中更丰富的交互内容，和语音识别中更方便自然的交互方式这两个方面进行了研究和探讨。下面是本论文的主要创新点和贡献。　　1.在基于文本的语气识别上，本文提出了基于全局词汇信息的语气识别方法。该方法使用全局词汇信息从三个不同的句子粒度上对句子进行了建模，并使用多层感知机对不同粒度的建模结果进行了融合，实现了对单句口语文本的语气识别。实验结果显示，该方法优于基于隐事件语言模型、条件随机场等使用局部词汇信息的方法，也优于基于循环神经网络语言模型方法。　　2.在基于语音的语气识别上，本文提出了基于声调特征和韵母特征的语气识别方法。该方法在基于声学特征、韵律特征和语调特征的语气识别方法的基础上，通过增加声调、韵母相关的特征来进行语气识别，并利用决策树进行特征选择来进一步优化特征。实验结果表明，这些增加的特征以及特征选择方法都能提升语气识别的准确率。　　3.在语音活动检测上，本文提出了一种基于子空间高斯混合模型和音素合并的语音活动检测算法。该方法在音素识别的框架下，使用子空间高斯混合模型进行声学建模，使用基于专家知识和数据驱动的方法进行建模单元的确定;该方法可以直接利用语音识别的现有标注数据训练模型，减轻标注负担。实验结果显示，与强制对齐语音识别结果所产生的语音静音结果相比，该方法的帧错误率减小了约一半左右。　　4.在增长式语音识别上，针对输出结果不稳定的问题，本文提出一种基于稳定时间预测的解决方法。该方法使用连续多帧的N-best路径的声学打分信息预测当前输出结果在将来的稳定时间，从而可以提前判断当前输出结果的稳定性。实验结果显示，该方法减小了算法的时间延迟，也即提高了算法的稳定性。　　5.在语音交互的基础技术基频提取上，本文提出了一种改进的基于自相关函数的基频提取算法。该方法在原始自相关函数方法的基础上，通过利用语音频谱的纹理特征来提高正确基频值的权重，利用增加候选基频的个数来增大搜索空间，以及利用可靠种子来限制搜索路径这三项措施增加了正确基频值在搜索空间中的出现比例和权重，优化了搜索空间。实验结果显示，该方法改善了原有基频提取算法的性能。

其他文献

基于统计形状模型的医学图像分割研究

医学图像处理与分析作为现代医学的一个非常重要的组成部分正越来越多地受到人们的重视。医学图像分割技术是医学图像处理与分析中的一个重要的组成部分。在医学图像中，通过对

学位

医学图像分割统计形状模型肝脏分割各向异性各向同性

基于分形技术的网络流量行为特性分析

网络流量行为特性是网络行为学的重要研究内容，它为网络规划、设计和管理提供基本依据，为网络性能、网络运行的服务质量保证和网络安全提供重要的手段。对网络流量行为的研究已

学位

网络流量行为特性蠕虫流量时间尺度网络负载数据流底层网络协议环路时间

基于视觉的四旋翼飞行器运动控制

四旋翼飞行器作为无人机的重要分支，具有垂直起降、自由悬停、低空低速飞行、灵活机动等优点，在探测监视、目标定位、救援救灾等方面具有广泛的应用。本文针对基于视觉的四旋翼

学位

四旋翼飞行器视觉控制图像矩悬停控制目标跟踪

电磁发射机AC/DC可控源电路控制技术研究

学位

车牌照定位和分割算法的研究

车辆牌照识别系统的研制与开发,成为现代化交通发展的热点问题,也是影响交通系统智能化、现代化的重要因素。而车牌照的定位和分割是其中最为关键的技术之一,它是字符分割和

学位

车牌定位图像分割中值滤波阈值边缘检测

快速个性化人脸建模和动画的研究

个性化人脸造型和动画一直是当前研究的热点和难点。本文以“快速个性化人脸建模和动画”为主题，采用普通摄像头获取图像，围绕着其中的人脸特征点获取、特征点深度信息估计、标

学位

个性化人脸建模标准模型检索深度信息估计表情动画图像获取

基于静息态功能磁共振成像的弱视患者脑功能研究

弱视是一种严重影响儿童视功能的眼科疾病，近些年其研究逐步得到关注。本文利用静息态功能磁共振成像(functional Magnetic Resonance Imaging，fMRI)数据，从脑功能层次来研究弱

学位

弱视患者脑功能改变功能磁共振成像低频振荡振幅镜像同伦连接

基于深度特征的声纹识别系统

声纹识别是根据语音对说话人进行自动区分，从而进行说话人身份鉴别以及认证的生物特征识别技术。其中，文本无关的声纹识别更是由于其应用环境的灵活性，成为学术界以及工业界的一

学位

声纹识别深度特征说话人矢量因子深度神经网络概率线性判别

USB接口虚拟示波器的研究与设计

虚拟仪器是随着计算机技术、现代测量技术发展起来的新型高科技产品。它是一种依赖软件,通过计算机来控制硬件,分析和提供测试数据的仪器。虚拟示波器是虚拟仪器的一种,本文以其为例,介绍了开发虚拟仪器的全过程。虚拟数字示波器由硬件平台和安装着应用测试程序的计算机一起组成,是一个功能强大的信号测试系统。它不仅可以实现传统示波器的功能,而且能够存储、再现、分析和处理波形。具有高速、便携、多功能等显著特点

学位

虚拟仪器虚拟示波器数据采集CPLDUSB接口

计算机网络质量的研究与模拟

计算机网络是现代计算机技术和通信技术密切结合的产物,现在人们的生活、工作、学习和交往都已离不开因特网。因此,计算机网络的服务质量(QoS)问题也已经成为人们极为关注的

学位

网络QoS队列调度算法MAC 协议计算机模拟洋葱路由

口语语音交互关键问题研究

与本文相关的学术论文