基于深度学习的视听语音识别研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：wcbcni22

【摘要】

：

【作者】

：

吴中伟

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着大数据技术、深度学习的进步,计算性能的提升,语音识别取得显著进展。已有研究表明,无噪声环境下基于深度学习的语音识别可以取得优异表现。然而,很多现实场景存在明显噪声,仅使用纯音频很难支撑高精度的语音识别。而视频不受噪声影响,说话人相关的视频模态能够为音频补充语义信息,因此结合视频信息的视听语音识别,可以应对更复杂的环境。通常视频和音频模态的帧率、信息长度不相同,现有的视听语音识别模型在特征融合方法上多采用拼接或相加的方式,特征匹配度低、融合不充分。针对此问题,本研究在搭建了基于自注意力机制的视听语音识别系统的基础上,提出了视听语音识别的跨模态注意力融合方式。在融合视频和音频模态特征前,对两种模态特征通过内积方式计算跨模态注意力权重,并利用残差连接保留原来的特征信息后进行融合。这种跨模态注意力的融合方式,增强了两种模态之间的特征互相借鉴能力,提高了特征匹配度,实验表明在多种场景下普遍优于拼接和相加的融合方式。已有的视听语音识别模型大多只考虑了正脸情况,而实际场景人脸位姿变化较大。本研究在不同角度拍摄的数据集进行对比实验,发现人脸位姿变化会减少视频模态对视听语音识别的贡献。为降低人脸位姿变化造成的唇形偏转对视听语音识别的影响,本研究使用3D人脸建模的方法获取了人脸的三维空间信息,用颜色属性调制得到的深度信息。为了有效利用挖掘到的深度信息,设计了可变形卷积残差块作为模型视觉前端,通过调整卷积核的位置偏移量,学习人脸位姿变化的空间位置变换关系。本研究提出的方法使视听语音识别模型在相机与正脸30度倾斜拍摄的数据集上,不同噪声类型和信噪比条件下的单词错误率平均降低了12.48%,显著提升了识别精度和噪声鲁棒性。视听语音识别模型在不同场景下主导模态不同。高信噪比下音频模态起主要贡献,低信噪比下噪声对音频影响较大,视频模态贡献增大。训练时两种模态存在着竞争和干扰,会导致识别性能的降低。本文研究了视听语音识别的模态平衡问题。为了让模型能够区分不同模态的重要程度、减少次要模态噪声的干扰,本研究提出了多模态自适应掩模和视听平衡损失函数。多模态自适应掩模可以根据不同输入自适应地过滤次要模态的噪声;视听平衡损失函数自动选择融合后的视听多模态和贡献更大的单一模态,共同参与模型训练。本研究提出的提升模态平衡的方法,使视听语音识别模型在两个公开数据集分别取得优于现有公开方法和非常先进的识别效果。

其他文献

职业教育“微创新” 跨越梦想“彩虹桥”

职业教育被提升到国家战略层面,迎来了历史发展机遇,为人人成才目标实现奠定了坚实基础。笔者从职业教育出发,分析了人人成才的背景、职业教育人人成才的时代价值,通过中职学校人人成才的改革创新探索和多方面的"微创新",实现人人皆可成才的最终目标。

期刊

浅谈新能源发电侧储能技术的应用现状

近年来，受到能源问题和生态环境问题的双重影响，致使我国的社会经济可持续发展受到一定威胁。在此种背景下，亟须进行能源革命，即利用新能源代替不可再生能源投入社会生产实践，其在电力行业中的应用取得了卓越的成绩。新能源发电项目规模逐渐扩大，已经居于世界前列。其中，储能技术为新能源装机的关键技术，是提高系统运行稳定性和安全性的重要保障。与此同时，储能技术在其他行业中的应用也发挥了突出的优势，如在偏远地区油田

期刊

生命教育视角下初中语文现代散文阅读教学研究

教育兴则国家兴,教育强则国家强。教育的发展水平是衡量一个国家是否繁荣兴盛、人民生活是否幸福的重要标志。一个国家的发展离不开教育事业的繁荣,而个体生命的发展同样也受到教育的重大影响。在日新月异的时代,尽管人们的物质水平有着显著的提升,但是青少年漠视生命和戕害生命的现象却时常发生,这不得不让我们开始反思教育存在的一些问题。学校教育是有目的、有意识地发展“人”的教育,其中语文更是我国塑造人文精神的主力学

学位

间充质干细胞在特发性肺纤维化治疗中的应用

特发性肺纤维化是一种病因不明、无法避免的进行性肺间质疾病，死亡率高，现有的治疗手段未能阻止该疾病的进展。间充质干细胞为一种独立于药物之外的治疗手段，其用于治疗肺纤维化的临床试验正在进行中。本文就间充质干细胞体外移植治疗特发性肺纤维化的现状作一综述。

期刊

用于心肺运动监测的小型化多普勒雷达系统

多普勒雷达系统的应用范围十分广泛,包括气象监测、行为分类和受害者搜救。由于雷达技术的发展以及对远程运动检测的需求不断增加,人们对用于微米级运动监测的毫米波雷达的开发产生了浓厚的兴趣。相关研究表明该方向具有潜在的应用前景,特别是在远程生命体征检测领域。然而,大多数提出的雷达系统都面临着重建运动的分辨率和质量方面的挑战,这对于分析诊断特征是至关重要的。本文提出了一种高度集成的多普勒雷达系统,可以用于生

学位

江苏省少年儿童研究会心理健康专业委员会骨干成员工作会议在南京召开

＜正＞6月21日下午,江苏省少年儿童研究会心理健康专业委员会骨干成员工作会议在南京召开。省少工委副主任、团省委中学和少先队工作部副部长、省少年儿童研究会副会长李琨,省青年研究会副会长、省少年儿童研究会副会长兼心理健康专业委员会主任、共青团系统心理健康辅导员考核认证管理办公室江苏管理服务中心主任沈一功出席会议。专委会副主任张庆、符翔宇,专委会副秘书长刘军、方定红、陆茹、孔军、金彩芬,专委会骨干成员张

期刊

大规模RC网络等效缩减关键技术研究

随着集成电路制程越发先进,单位面积上集成的晶体管数目越发庞大,EDA仿真软件需要面对的RC网络也随之不断复杂。在面对越发庞大的网表时,大规模RC网络等效缩减成了解决超大规模RC网络仿真困难的可行方法之一。本文针对传统基于时域的节点压缩算法和基于空间投影的模型降阶方法各自所面临的稠密网络表现差、大规模RC网络压缩率低、高频响应保持匹配度低等问题,在前人的基础上,提出了以下两种大规模RC网络等效压缩算

学位

心理健康成少儿险新着力点

报纸

面向ECO阶段片上电源网设计的凸块电流分析

近几年来,封装制造技术与芯片制造技术提升速度的不一致不仅造成凸块（Bump）数量有限而且使得凸块电流密度随着其尺寸的减小而增大。过高的凸块电流密度将提升热问题和机械问题出现的概率,降低凸块内部结构的稳定性甚至导致产品损坏。因此,设计者需要仔细分析凸块电流大小。同时,在工程变更次序（Engineering Change Order,简称ECO）阶段,底层芯片的设计更改将导致凸块电流需要重新分析。然而

学位

基于深度学习的OTFS信号处理技术研究

第五代移动通信系统（Fifth Generation Mobile Communication System,5G）需要支持移动速度达到500 km/h的高速铁路场景,而在第六代移动通信系统（Sixth Generation Mobile Communication System,6G）的展望中,频段和终端移动速度要求分别提升到了太赫兹和1000 km/h。高速移动和高频段带来的高多普勒频移导致正

学位

基于深度学习的视听语音识别研究

与本文相关的学术论文