低内存低延迟的语音关键词检测算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yp7611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音关键词检测技术是一种从输入语音中检测出指定关键词的设备唤醒技术,主要应用在智能音箱的唤醒模块中。近年来,随着移动互联网的快速发展,基于语音的交互技术开始得到普及,而作为语音识别的前端部分,语音唤醒直接关系到后续语音交互的效率和效果。其中,语音唤醒的核心技术就是语音关键词检测技术,语音关键词检测技术通过对输入语音进行识别,从而判断被检测语音是否为指定命令或目标命令。然而,语音交互技术和实际的应用场景关系密切,不同的应用场景对不同的算法、硬件要求有所不同。特别是在智能音箱的应用中,语音唤醒只是作为一个微小的前端模块,往往对内存要求较高,需要降低模型的参数尺寸。另外,由于直接面向用户,为了达到高效交互的使用体验,对响应速度也有较高的要求,而模型计算量的大小直接关系到模预检测的响应速度。因此,一种低内存低延迟的语音关键词检测技术就显得极为重要。为了解决上述问题,本文在卷积循环神经网络的基础上引入关注机制,同时对卷积算法进行修改,提出在时间维度上的卷积算法,从而增强模型预测能力,更好地利用语音的时序和时频谱空间信息,降低模型的内存占用和预测延迟率。另外,本文还从模型压缩的角度对低内存占用进行探索,在上述架构的基础上,采用奇异值分解压缩参数,使得在不降低模型准确率的情况下,相对于传统模型,本文实验模型能够减少三分之二的参数,在达到同等准确率97%的情况下,能够使整个系统的模型参数下降20KB左右,同时延迟率降低0.5毫秒左右。在应用中,本文缩减二进制参数表示范围,将8位二进制参数改为更低数量的位数进行替代(如6位二进制),在准确率几乎不受影响的情况下,能够成倍缩减内存占用。可以得出结论,本文所采用的算法,在资源受限的应用场景下,具有更好的应用前景。
其他文献
随着互联网的迅速发展,网络造谣现象时有发生。大学生是接触互联网最多的群体,更易接触到网络造谣,也更容易成为网络造谣的受害者。网络造谣不利于维护校园稳定及构建和谐校
学习者在学习各种学科知识时,不仅获得了具体的学科知识和技能,而且形成了对学科、知识和学习的信念。这些学习信念可能是外显的,也可能是内隐的;可能是系统的,也可能是零碎
车道线检测是自动驾驶汽车或高级驾驶辅助系统的重要组成部分,利用安装在车辆前方的单目相机以实时成像的方式获取车辆在当前车道的横向偏移,从而为车辆的车道保持、超车换道
纯电动客车作为新能源公共运输工具,具有零排放、出行灵活、维护成本较低等优点,能有效缓解传统能源耗竭、环境污染、交通堵塞等问题。为进一步降低整车整备质量,提高续航里程,有必要对车身骨架进行轻量化设计,采用多材料组合使用车身是目前车辆实现轻量化的常见的思路,该方案面临的一个关键问题是异质材料的连接问题。为了给某纯电动客车高强度钢-铝混合车身的接头设计提供理论依据,本文基于摩擦搅拌盲铆接连接技术展开,研
作为一种方便、快捷的交通工具,轿车在人类生活的作用已经不可替代。选购轿车同选购其它商品一样,不必贪大求全,要按照自己的需要去选车,选购适用的车型和装置,方能充分享受驾车的
报纸
目的应用OCTA和眼底照相研究健康年轻成年的高度近视人群视盘形态学变化特征,以及其与视网膜、脉络膜厚度及血流的相关性方法纳入2020年6月-2020年8月于温州医科大学附属眼视
会议
目的研究单纯高度近视患者和低度近视患者早期视功能和视网膜及脉络膜厚度及血流之间的关系方法选取2020年6月-2020年8月于温州医科大学附属眼视光医院健康成年人患者共60例,
会议
《日用玻璃工业污染物排放标准》编制说明1项目背景1.1任务来源根据国家《"十一五"国家环境保护标准规划》(环发[2006]20号),为推进环境执法和监督管理工作实现科学化、法制
会议
拉曼光谱技术是一种快速无损的分析检测技术,拉曼光谱包含了丰富的物质分子结构信息。本文基于拉曼光谱技术在宝玉石领域的应用现状,进一步探究其在宝玉石定性鉴别和产地区分
烟叶田间成熟度作为影响烟叶品质的重要因素,仅靠烟农人工肉眼难以准确鉴别。为了实现在烟叶采收环节中准确地鉴别烟叶的成熟度,以下部烟叶为样本,基于图像处理技术对烟叶图