面向移动端优化的多通道语音增强与识别技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yhbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多通道语音增强及识别技术是学术界的研究焦点,应用场景非常广泛。其中,移动端平台是语音增强及识别技术的重要应用场景。然而,传统语音增强算法需要精确的麦克风阵列信息及远场信号假设,而这些条件在移动端平台往往无法保证,导致传统语音增强算法在移动端平台应用的表现较差。此外,传统语音增强及识别算法计算复杂度均很高,无法直接应用于资源受限的移动端设备。针对上述问题,论文对移动端场景下多通道语音增强和识别两大技术展开研究。首先,归纳总结了目前语音增强的理论研究及应用成果,重点阐述了基于时频掩膜的波束形成算法。基于掩膜的波束形成算法能够获得较好的多通道信号增强效果,却不能很好的应用于移动端平台。因此,论文优化了经典时频掩膜在移动端平台的估计方法,利用信道特性的不同获得更准确得时频掩膜估计值,使得波束形成算法在移动端平台取得更好的效果。同时,掩膜波束形成算法的主要计算复杂度在神经网络解码部分,论文尝试压缩神经网络的中间层节点数量,在维持算法效果的前提下有效降低了算法复杂度。此外,论文研究了特定场景下,语音识别算法的声学模型压缩问题。利用场景相关的数据库对已训练过的声学模型进行二次训练,标记与场景相关的音素节点,滤除与场景无关的音素节点,从而有效地降低了语音识别算法的复杂度。同时,这一声学模型压缩方法可以有效解决识别算法解码时的相似路径抉择错误的问题,在不依赖于自然语言处理的情况下提高了解码的正确率。在CHiME4数据集上进行实验,基于信道特性估计掩膜的波束形成算法相对于经典延时求和的算法具有0.16的pesq值提升,相对于基于聚类的算法亦有0.06的提升。复杂度方面,将神经网络的中间层节点缩减后,能够将神经网络的参数量缩小近十倍。在识别实验方面,带噪语音使用基于信道特性的算法增强后,再进行语音识别的WER相对值降低了48.3%;而在识别算法使用二次训练后的声学模型时,将WER相对值进一步降低了12.6%。
其他文献
自动出图是建筑信息模型(Building Information Modeling,BIM)技术应用中的重要一环,有助于在项目的全生命周期中发挥BIM技术的价值。建立基于工业基础类(Industry Foundation Class,IFC)标准的尺寸标注和剖面等二维实体的自动生成机制,可有效弥补三维模型在表达空间布置和结构尺寸信息等方面的不足,并解决当前BIM软件各自孤立出图、二维与三维信息各自
板料数控渐进成形是一种新型的无模成形技术,它由一个或多个形状简单的成形工具头沿着零件上预先设定的轨迹进行移动,通过对板材进行连续局部塑性加工,局部形变累积使板料获得最终形状。该工艺兼具灵活度高、成形力小、加工成本低、板材成形性能好等优点,特别适合小批量、高复杂度的快速原型产品制造,能够满足当前市场对产品个性化生产的需求,具有广阔的发展前景和市场应用潜力。业界针对渐进成形技术的相关研究往往是需要添加
随着海洋开发规模与开发领域不断扩大,所有的海洋资源开发、海上运输等,都依赖于船舶和海洋平台等海上浮式结构物。海上浮式结构物始终处于多自由度摇晃运动中,使其作业和安全都受到严峻的挑战。海上浮式结构物运动响应的准确在线预报,有助于保障其安全,改善其作业,例如对纵荡、横荡运动进行预报,可以改善动力定位性能;对垂荡、纵摇、横摇运动进行预报可以事先给出立管的运动补偿。因此,对海上浮式结构物运动响应的在线预报
引力波是时空的涟漪,承载着引力相互作用的基本自由度。引力波覆盖了从10-18Hz到104Hz的宽阔频段,其中空间引力波探测主要对10-4Hz到100Hz范围内的引力波起源进行探究。空间引力波探测任务通常采用三星编队,每颗卫星内部放置两个自由漂浮的测试质量,构成三个迈克尔逊型干涉仪,通过测量不同卫星上测试质量之间的距离变化来探测引力波。由于空间引力波信号非常微弱,必须尽可能降低卫星平台上的残余扰动,
随着船舶向着大型化、快速化、重载化方向发展,船舶工作人员对其生活条件以及自身健康要求也越来越高,这就要求设计人员对船舶舱室的舒适度进行优化。对于长时间在海上作业的人员而言,工作环境的好坏主要取决于工作处所的噪声水平,因此防止船员长时间暴露于有害噪声环境中是现代船舶设计的重要研究方向之一。国际海事组织(IMO)于2014年7月1日起发布了强制实施的舱室噪声新标准,新标准的发布意味着舱室空气噪声问题愈
动力定位系统在船舶与海洋工程领域正发挥着越来越重要的作用,业界对于动力定位系统的性能与经济性也提出了越来越高的要求。在此种背景下,本文针对动力定位系统中的推力分配系统和控制器参数优化开展了研究。首先介绍了动力定位系统相关理论,建立了动力定位系统时域模拟数学模型,以该模型为基础,开发了动力定位时域模拟程序。并以一艘半潜式钻井平台为研究对象,进行了动力定位系统时域模拟。针对半潜平台动力定位系统水动力干
综合管廊是建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施。因为其可以集成利用地下空间资源、方便布设管线、利于运营维护,是城市现代化基础设施建设的重要标志。管廊基坑具有跨度长、基坑浅、工期长的特点,因此对基坑变形控制要求较高。PC组合钢管桩则是一种施工快速、刚度大、稳定性好的围护结构,能适用于管廊基坑工程。本文则对基坑所采用的PC组合钢管桩围护结构展开研究,运用理论计算、数值分析等多种
本文对感应电机常用的效率优化方法进行了调研,基于电机损耗模型的优化方法,在保持良好控制性能的基础上能实现较出色的效率优化控制。为了减少效率优化模型中电机参数变化的影响,本文采用递推最小二乘法算法对在线参数辨识进一步探究。本文在普通感应电机模型的基础上,进行递推最小二乘法参数在线辨识模型的推导,优化了辨识算法中数字滤波和数值微分的方法,实现了电机参数在线辨识方法性能的提升。普通的感应电机模型忽略了电
大型邮轮的设计和建造过程中考虑到电缆管路布置及结构轻量化等需求,常在主要构件高腹板上设有许多开孔,需要对其进行强度评估以确保结构安全。目前评估腹板开孔梁强度的理论方法有:实腹梁估算法、费氏空腹桁架理论和有限元分析法。本文借助有限元数值模拟软件,针对梁腹板开设单孔、多孔、开孔加强等多种工况下的强度特性进行分析,并基于费氏空腹桁架理论提出梁腹板开孔结构的强度简化评估方法。本文的主要研究内容包括:1.总
多输入多输出技术(Multiple-Input Multiple-Output,MIMO)由于其能够在不增加额外通信带宽和信号传输功率的前提下显著地提升数据传输速率而成为了无线通信领域的核心技术之一。该技术被广泛地应用于IEEE 802.11ac和国内的超高速移动通信(Enhanced Ultra High Throughput,EUHT)等无线局域网协议以及第五代移动通信技术(5G)当中。其中,