【摘 要】
:
声音场景分类是机器听觉领域最重要的研究课题之一,旨在分析音频数据,然后将其分类为所提供的预定义类别之一,其特征在于记录音频信号所属环境,如“公园”、“步行街”、“地铁站”等。设计声音信号处理方法来自动提取声音场景信息在诸多应用中具有巨大的潜力,如:智能驾驶通过音频分析周围环境做出相应辅助决策,降噪耳机通过采集分析周边环境声音判断所处场景并产生相应降噪曲线实现主动降噪等。近年来,由于其强大的特征表达
论文部分内容阅读
声音场景分类是机器听觉领域最重要的研究课题之一,旨在分析音频数据,然后将其分类为所提供的预定义类别之一,其特征在于记录音频信号所属环境,如“公园”、“步行街”、“地铁站”等。设计声音信号处理方法来自动提取声音场景信息在诸多应用中具有巨大的潜力,如:智能驾驶通过音频分析周围环境做出相应辅助决策,降噪耳机通过采集分析周边环境声音判断所处场景并产生相应降噪曲线实现主动降噪等。近年来,由于其强大的特征表达能力,深度卷积神经网络在图像识别、目标检测和语义分割等领域得到了广泛的应用。越来越多的声学研究者也将目光投向卷积神经网络的研究。鉴于此,本文基于深度卷积神经网络研究声音场景分类方法。现有的研究表明深度卷积神经网络在声音场景分类中只对声音谱图的部分频带敏感,如含有背景声音的频带和场景特征明显的频带。因此,若直接将声音谱图特征送入卷积神经网络进行训练,谱图中非辨别性的频带特征可能通过模型学习混淆分类边界从而影响分类性能。另外,虽然深度卷积神经网络已经在声音场景分类领域取得了突破性的进展,但高复杂度的网络模型也给算法的移植和部署带来许多问题,如何优化神经网络结构,减少模型参数量并将声音场景分类算法移植到智能产品目前仍然是一大挑战。针对上述问题,本文主要开展以下工作:(1)提出一种基于卷积神经网络的谱图特征学习方法。该方法使用卷积神经网络进行对数梅尔谱图特征的提取,在基于深度学习的音频分析中,使用端到端的方式进行声音信号处理。相比声音信号的手工特征提取手段,该方法能够减少特征的存储开销并可在具有神经网络优化的硬件平台上实现快速特征提取。(2)提出一种基于多通道谱图特征的声音场景分类方法。该方法首先将对数梅尔谱图特征的频带信息进行重组,生成具有不同频带信息组成的多通道谱图特征。然后针对不同通道具有的频带信息对声音场景分类贡献不同的特点,引入通道注意力网络,选取具有差异性特征的重组频带通道进行场景辨识。最后通过标签平滑方法提高模型的泛化能力,改善声音场景分类性能。该多通道谱图特征的声音场景分类方法能够选取辨别性突出的重组频带谱图特征进行声音场景分类;另外,每个通道的特征都是原谱图经过随机选择频带的结果,具有一定的局部性,通过集成学习融合了多个局部谱图信息的多通道特征具有一定的信息互补性,可以在一定程度上提高分类性能。最后通过DCASE2019声音场景分类挑战赛数据集进行实验并在验证集上取得了79.64%的分类正确率,高于官方基准方法和多数开源方法,验证了本文所提出方法的有效性。(3)实现了一种面向嵌入式平台的声音场景分类方法。该方法针对嵌入式等移动平台端资源受限,无法部署大规模的卷积神经网络算法问题,首先搭建了一种简化版MobileNetV2模型,然后根据模型参数融合和模型参数定点化等技术对简化版MobileNetV2模型进行优化压缩,最后根据嵌入式平台对简化版MobileNetV2模型进行部署。在参数量缩减为原MobileNetV2模型30%的基础上实现了嵌入式平台的声音场景分类算法移植。
其他文献
本试验主要研究饲粮中添加枯草芽孢杆菌(Bacillius subtilis,BS)和紫苏籽提取物(Perilla seed extract,PSE)对断奶仔猪生长性能、抗氧化能力和肠道健康的影响。试验采用2×2因子设计。选择杜洛克×长白×大约克三元断奶仔猪96头(30±1日龄),随机分为4个处理组,每个处理6个重复,每个重复4头猪。处理组为:-BS-PSE组(基础日粮);+BS-PSE组(基础日粮
特种机械臂是某特种试验中的关键机构,搭载模型运动以达到试验目的。机械臂在运动过程中,可能与周围环境或另一机械臂发生碰撞,需要对特种机械臂进行有效的碰撞检测。现有的机械臂碰撞检测方法中,基于动力学模型的碰撞检测方法由于不需要安装任何外部传感器而适用于该机械臂,但是这种方法的效果取决于动力学模型的准确性。因此,需要先对机械臂进行动力学参数辨识。现有的辨识方法普遍将动力学参数和摩擦力参数一起作为最小参数
机械臂的目标轨迹往往通过试教法确定,再通过轨迹规划算法确定各个关节的速度曲线,传统的轨迹规划算法仅考虑了机械臂运动学模型的非线性及关节电机速度的限制,这使得规划的轨迹不能充分发挥机械臂的工作效率。如何通过优化目标轨迹来提高机械臂的工作效率具有重要的研究价值。本文以直角坐标六自由度机械臂(简称:直角坐标机械臂)为例,结合直角坐标机械臂的运动学模型、动力学模型,以及关节的驱动速度、加速度、驱动力/力矩
如今,在我国经济水平飞速发展的背景下,较发达的大城市已经出现了土地资源紧缺、交通拥挤和人口高密度聚集等问题。如同过去的西方城市一样,以汽车主导的交通方式,让我国城市也陷入了无序蔓延的困境。面对如此现状,解决我国大城市空间发展问题的第一选择就是建立以轨道交通为核心的城市公共交通系统。虽然轨道交通的开发建设给以站点为核心的辐射区域发展带来契机,然而在实际发展过程中,以站点为核心的站域公共空间也出现了许
2297铝锂合金因其具备中等强度、低密度、高弹性模量和刚度、以及良好的耐应力腐蚀和较高的抗疲劳裂纹扩展能力等诸多优点,在航空航天领域显示出广阔的应用前景。为了进一步探索该合金的相关工艺性能,本文以两种原始状态不同的2297铝锂合金为研究对象,采用硬度和力学拉伸试验等性能测试手段和金相分析、XRD、SEM、TEM等组织表征手段,主要研究了板材轧制变形量对2297铝锂合金的T6处理条件及其组织与性能的
石墨烯是由碳原子组成的层状二维材料,其优异的热学、电学以及力学特性使其在电子、复合材料和摩擦润滑等领域存在巨大潜力。但在制备过程中石墨烯片层间的相互吸引使其无法大规模的生产应用。相比于片层石墨烯,褶皱石墨烯具有较高的有效表面积、出色的抗聚合、抗压和化学稳定性。本文采用分子动力学方法模拟了单层氧化石墨烯在径向压缩下的褶皱过程以及褶皱球结构的压痕过程。研究了含氧基团(羟基、环氧基)对石墨烯片层褶皱行为
装备制造业是国民经济的基础性、战略性产业,也是我国“十二五”期间重点发展的支柱性产业。而数控转台作为数控机床的重要功能部件,对零件的加工质量起着决定性的作用,其性能的优劣也直接影响了数控机床的整体加工性能。我国数控转台发展起步较晚,且由于国外长期以来的技术封锁,这使得我国数控转台的发展步伐严重滞后,与国外同类数控转台产品相比,国产数控转台在精度保持性方面还比较落后,缺乏核心竞争力。而导致数控转台精
纤维呈随机分布且具有三维网状结构的不锈钢纤维多孔材料是一种十分重要的结构功能材料,可广泛应用于过滤分离、流体分布、吸声降噪、能量吸收、电磁屏蔽、高效燃烧、强化换热等领域。由孔隙、烧结结点和纤维骨架三要素构成的孔结构是不锈钢纤维多孔材料结构功能一体化与多样化的基础。传统的随炉升降温烧结工艺制备的不锈钢纤维多孔材料,在形成高强度烧结结点的同时,其纤维骨架晶粒出现异常长大现象,显着降低了多孔材料的耐腐蚀
锡膏印刷是表面贴装生产线(Surface Mount Technology,SMT)的关键工序。印刷系统性能通常随生产数量增加而逐渐退化,钢网清洗是维持印刷性能、保证印刷质量的重要措施。在目前印刷条件下,工程师通常需要在印刷开始前预先确定钢网清洗频率。为减少印刷质量损失,故清洗频率常常设置比较高,而频繁的清洗维护既导致大量生产中断,也增加了生产周期和成本。因此,非常有必要对钢网的清洗维护问题开展深
透水砖是一种新型的透水材料,具有良好的透水性能,但随着使用时间的增加,容易造成堵塞。本文通过确定骨料级配、胶凝材料,成型出孔隙致密,具有优越防堵塞性能的透水砖面层,并在此基础上探究了骨料级配、胶材种类、掺量、外加剂等对透水砖面层力学性能和透水性能的改善。对成型好的透水砖面层进行堵塞模拟,从堵塞剂浓度、级配、清理方式等方面评估了透水砖面层的防堵塞性能。研究结果表明:1)对于水泥基透水砖面层,浆骨比为