基于深度学习的语音关键词识别方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jackyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音关键词识别是用语音信号处理方法,从用户话音流中检测出若干预定义的关键词。目前,语音关键词识别研究已取得重要进展,涌现出一些相关软硬件产品,并在人机交互、手机语音助手、智能音箱、智能耳机、智能家居等领域得到广泛应用。特别是近年来,随着深度学习理论的兴起,基于神经网络的语音关键词识别技术取得新进展,但由于其参数量大、算力要求高,难以在终端设备上应用。本文考虑到低参数量和低计算复杂度的应用需求,应用深度学习理论,研究了语音关键词识别技术。本文的主要工作如下:(1)针对低参数量和低计算复杂度应用需求,本文提出了基于Ghost模块和坐标注意力机制的语音关键词识别模型。该模型首先用Ghost模块代替传统卷积,通过调节模块的压缩比,有效降低模型的参数量和计算量;其次,使用坐标注意力机制捕获跨通道信息和特征位置信息,提升网络性能;最后,用残差连接形式封装Ghost、普通卷积、坐标注意力等模块,防止训练中网络退化;模型在谷歌数据集和中文数据集上进行了仿真实验,实验结果表明,该模型有效减少了参数量,在谷歌数据集上以26K的参数量达到94.53%的识别率。(2)针对使用Ghost模块和坐标注意力机制完成语音关键词识别任务准确率不佳,网络易过拟合的问题。提出了融合Mobile Vi T和空间金字塔池化模块的语音关键词识别模型。在该模型中,首先,采用Mobile Net模块的深度可分离卷积技术代替Ghost模块,Mobile Net结构采用先升维增加特征通道数,再降维的方式,提升网络性能;其次,使用Mobile Vi T模块通过基于自注意力机制的Transformer网络和卷积网络堆叠将局部和全局信息结合,以增强网络拟合能力;接着,实验中通过调整Mobile Vi T模块与Mobile Net模块位置关系提升模型识别性能;最后,针对网络过拟合问题,使用空间金字塔池化技术对卷积之后的特征进行融合,提升网络性能。模型在谷歌数据集和中文数据集上进行了仿真实验,实验结果表明,该模型参数量较小,识别准确率高,在谷歌数据集上识别准确率达到96.87%。本文应用深度学习理论,提出了两种语音关键词识别方法。这两种方法网络结构简单、参数量小,在谷歌数据集和中文数据集上均取得了良好的识别效果。此外,这两种方法仅需微调模型,即可完成不同数据集的识别任务,网络泛化能力强。
其他文献
随着城市化进程的发展,中国大城市中的长大隧道已经变得越来越普遍了。在隧道内,尤其是长大隧道内,受到结构封闭和高车流量的影响,隧道内部空气质量通常比开敞环境要更为恶劣。因此,本研究重点关注城市公路隧道内部关键污染物扩散及通风系统优化控制策略。在研究过程中,本文采用理论计算方法计算了隧道在不同污染控制目标下的通风系统关键参数。同时采用数值模拟方法分析了在只有交通风条件、交通风和射流风机平送条件以及交通
学位
在建筑领域中,公共建筑能耗总量和用能强度巨大,其中,中央空调系统能耗占公共建筑总能耗的60%以上,因此,公共建筑中央空调系统是我国建筑节能的重点对象。2020年初以来,新型冠状病毒肺炎(COVID-19)在世界范围内蔓延,给公共建筑中央空调系统在空气净化、消杀防疫上提出了更高要求。另外,建筑智能化技术、特别是群智能等新一代建筑智能化技术的发展,也为我国公共建筑机电设备系统节能改造、能源环境监测及消
学位
随着社会的进步,人们生活水平得到改善,如何通过改良空调系统来营造一个舒适节能的室内环境一直是专家们关注的重点。近年来,随着辐射空调作为温湿度独立控制空调系统的代表形式,凭借其舒适节能的独特优势逐渐得到认可。由于辐射空调系统包括辐射供冷末端和独立新风系统,因此其室内环境将同时辐射供冷末端参数、独立新风系统参数以及室内、外负荷等多因素影响,室内空气温度和速度分布规律尚不明确,而这是辐射空调系统合理设计
学位
巴基斯坦是世界人口第六大的国家,同时巴基斯坦也是一个能源短缺的国家。近年来随着巴基斯坦人口以及工业区的增长,巴基斯坦正面临着严峻的能源危机。长期以来巴基斯坦能源消费主要还是依赖于传统的化石能源,对可再生能源的利用非常少。然而随着巴基斯坦传统化石能源的减少、化石能源价格的提高以及化石能源对环境的污染,发展清洁可再生能源来减少化石能源消费和减少环境污染是十分必要的。巴基斯坦的建筑能耗占总能耗的绝大部分
学位
近年来老龄化加剧、越来越多室内物理环境问题显现,老年人居室健康需求难以满足。建筑学等学科围绕老年宜居环境营造开展大量研究,主要从套型设计、人体工学等要素开展了满足行动健康需求的适老化研究。马斯洛需求层次理论提倡老年人积极多样化的自我实现,现有研究缺乏综合考虑老人环境心理学、自身需求特征、室内环境暴露健康效应的一体化环境营造方法。本研究以我国寒冷地区部分省份建筑为研究对象,通过合理的技术路线,形成了
学位
面向用户端的合理用能需求开展能源供给侧结构性改革是实现“碳达峰”和“碳中和”目标的重要举措。通过文献及实地调研发现,量大面广的居住建筑存在严重的能源浪费问题,尤其是因能源应用系统结构不合理所导致的高品味电能利用效能低的问题,使其成为最具节能潜力的领域之一。本文针对开展居住建筑能源革命面临的关键科学与技术问题——居住建筑用户端的合理用能需求是什么与如何开展居住建筑能源供给侧结构性改革,结合理论分析和
学位
目前的商用飞机采用混合通风模式,即从座舱顶部送风,在侧壁靠近地板附近排风。混合通风意在提供均匀的热环境,以满足乘客舒适需求。然而,混合通风存在污染物交叉传递和引发疾病传播的风险,因此研究人员提出使用置换通风来减少舱内空气的混合,但是常规置换通风系统在座舱内容易形成较大的温度分层,给乘客脚部造成吹风感。现有研究对置换通风系统进行了一些改进,例如仅通过过道地板来供风,或者通过每位乘客座椅下方的风口来供
学位
自然场景文本检测旨在对各种现实场景中的文字区域进行定位,它是机器理解现实世界的重要步骤。目前,基于深度学习的自然场景文本检测已经成为计算机视觉领域的重要研究方向,其实际应用领域也越来越多,比如图像(或视频)搜索、字幕翻译、人机交互、机器自动化等。基于卷积神经网络的自然场景文本检测主要分为边框回归和分割两种方法。边框回归方法通常将文本检测视作目标检测领域的子任务,对于弯曲状文本的检测效果不理想。基于
学位
语音分离旨在将多个混合的语音分成单独的语音信号,它在人机交互、语音识别、数字音乐等领域具有广泛应用。多年来,有关单通道语音分离技术的研究已取得一定进展,但由于单通道固有的欠定性,使得传统方法的分离效果不佳。随着深度学习的兴起,数据驱动型方法在解决单通道分离问题上表现出明显优势,基于神经网络的单通道语音分离方法有所发展,但分离性能仍旧有待提升。本文应用深度学习理论,研究了基于深度学习的单通道语音分离
学位
面临频谱日渐拥挤的困境,5G通信系统引入了毫米波频率,通过探索尚未占用的宽频带以实现更高的数据传输速率。得益于毫米波波长短的优势,大规模多入多出(Multiple-Input Multiple-Output,MIMO)技术通过充足的天线增益补偿了毫米波信道的衰减,并在提升系统频谱效率方面彰显了极大的性能优势。在毫米波MIMO通信系统中,波束成形技术十分关键,其算法设计对系统性能的提升亦起着至关重要
学位