【摘 要】
:
音频携带了城市中大量关于日常环境、生活场景和物理事件的信息。通过深度学习方法智能分类识别出各个声源并提供相应的运用与服务,在构建智慧城市中具有巨大的潜力与应用前景。其被广泛运用于噪音监控、城市安防、多媒体信息检索、智慧工厂等方面。但当前已有的城市音频分类模型仍存在分类准确率不够高、泛化能力不够强以及噪音鲁棒性较弱等问题,针对上述问题论文进行了如下研究:(1)为解决城市音频分类领域中现有模型分类准确
论文部分内容阅读
音频携带了城市中大量关于日常环境、生活场景和物理事件的信息。通过深度学习方法智能分类识别出各个声源并提供相应的运用与服务,在构建智慧城市中具有巨大的潜力与应用前景。其被广泛运用于噪音监控、城市安防、多媒体信息检索、智慧工厂等方面。但当前已有的城市音频分类模型仍存在分类准确率不够高、泛化能力不够强以及噪音鲁棒性较弱等问题,针对上述问题论文进行了如下研究:(1)为解决城市音频分类领域中现有模型分类准确率不够高、泛化能力不够强的问题,提出了一种N阶密集卷积神经网络的城市音频分类模型。首先介绍了密集卷积神经网络的结构;其次基于N阶马尔可夫模型将密集连接改进为N阶有关连接;然后提出了一种新型音频分类模型:N阶密集连接卷积网络。该模型在缓解梯度消失的前提下更高效利用特征信息,收敛速度更快、分类准确率更高;最后基于Urban Sound8K和Dcase2016数据集的研究结果表明:模型分类准确率分别为83.27%、81.03%,验证了模型具有良好的分类准确率和泛化能力。(2)为进一步提高城市音频分类模型的分类准确率与泛化能力,提出了一种双特征2阶密集卷积神经网络的城市音频分类模型。首先介绍了特征提取的原理与方法,其次详细的阐述了2阶密集卷积神经网络的算法与结构;然后结合双特征融合与2阶密集卷积神经网络提出了一种更适合城市音频分类的模型:双特征2阶密集卷积神经网络;最后基于Urban Sound8K和Dcase2016数据集的研究结果表明:该模型的分类准确率分别为84.83%、85.17%,与基线准确率相比分别提高了13.81%和7.07%,验证了模型具有优秀的分类准确率和泛化能力。(3)为提高噪音环境下城市音频分类模型的鲁棒性,提出了一种双特征互补偿自适应2阶密集卷积神经网络噪音鲁棒的城市音频分类模型。首先介绍了噪音添加和噪音鲁棒处理;其次阐述了一种双特征互补偿的算法;然后结合两者提出了一种噪音鲁棒音频分类模型:双特征互补偿自适应2阶密集卷积神经网络;最后,基于Dcase2016数据集开展噪音环境下城市音频分类研究。实验结果表明:模型分类准确率分别可达77.12%、75.52%,与基线模型相比,平均分类准确率分别提高了10.22%和11.04%,验证了模型良好的噪音鲁棒性。(4)为评估模型在真实场景下的可行性与实践性,基于2阶密集卷积神经网络模型构建了AI EAR:面向城市音频的智能分类、识别与检测系统。首先基于2阶密集卷积神经网络开发了批量音频分类、音频分割检测、实时音频识别、音视频检索定位功能的API接口;然后以Qt为基础开发GUI界面实现了上述功能的人机交互;最后在无锡市进行音频分类实验。实验结果表明AI EAR系统处理城市音频大数据具有优异的实时性、精准性、以及高效性,验证了模型与系统良好的可行性与实践性。
其他文献
随着网络通信技术的日益成熟、网络规模的不断扩大,网络安全具有越来越重要的意义。网络流量数据的异常检测和分类成了维护网络安全的一种重要手段,近年来受到越来越多的关注和研究。但目前网络流量数据异常检测和分类的研究中存在着数据量大、数据分布不平衡、传统的异常检测和分类方法准确度较低等问题。自编码器是深度学习领域中重要的神经网络,由于其出色的特征提取能力而被广泛研究用于数据的异常检测和分类领域,本文主要针
迭代学习控制广泛应用于具有重复运动特性的被控对象的轨迹跟踪问题,其利用先前批次的输入以及误差信息,不断修正当前批次的输入信号,经过足够多的批次后能够实现准确跟踪。实际中被控系统一般都是非线性系统,因此,将迭代学习控制理论应用于非线性系统的跟踪控制问题具有重要研究价值。在传统的迭代学习控制研究中,学习律的增益大多是固定不可变常数,增益固定系统收敛速度一般也固定,初始参数的设定决定了系统的运行状况。变
目标跟踪是计算机视觉的重要分支之一,正随着信息科技的发展在人机交互、智能机器人、自动驾驶、国防安全、视频监控和智慧城市等领域中得到越来越多的重视和应用。尽管视觉跟踪技术在过去数十年中得到了长足的发展,但由于目标遮挡、尺度变化、外观形变以及相似物体干扰等跟踪环境因素的复杂多变,能够在多应用场景下满足对跟踪的精度、实时性和鲁棒性等需求仍是一项艰巨但有着光明前景的工作。本文基于深度学习算法模型,针对长时
在智能护理机器人领域,如何帮助机器人快速且准确地识别护理对象的动作行为已成为该领域的热点研究问题。准确识别动作行为是护理机器人实现护理智能化的先决条件,且可增强护理机器人的动态感知能力,故行为识别技术是护理机器人实现智能化的重要组成部分。基于深度学习的行为识别技术具有建模过程简便且训练模型容易的优点已逐渐成为行为识别技术的发展趋势,但基于深度学习的行为识别技术在识别准确率、泛化能力及收敛速度等方面
随着人类生产生活方式的不断更新变化,人们开始更加注重自身的健康问题以及生存环境的安全问题,特别是对各种有可能危害健康和破坏大气环境的有毒有害气体的加以关注。气体传感器作为一种能够监测各种气体浓度和成分的装置已经被广泛应用于众多场景,也吸引了更多人的目光。因金属氧化物半导体式气体传感器自身拥有的一系列优势,例如性能相对较好、器件结构简单以及性价比高等,而成为了许多研究人员争相报道的对象。很多时候人们
近年来,随着科技的不断进步发展,移动机器人相关技术已逐步在人类实际生活与生产过程中发挥重要作用,相关行业领域对于移动机器人的性能需求也愈发迫切。自主位姿估计与运动控制作为移动机器人在未知环境中完成工作任务的技术基础,近些年来引起了国内外学者的广泛关注。针对移动机器人在复杂环境下的实际功能需求,本文利用单目视觉、IMU与轮式里程计实时传感信息,进行移动机器人多传感信息融合位姿估计与速度控制研究。首先
经济社会的发展和生产力的提高促使机器人的应用越来越广泛,随着传感器技术的进步,机器人系统拥有了更加强大的探测和感知能力,大大推动了机器人应用技术的发展。但当前大部分的移动机器人在进行自主导航的过程中,其数据源严重依赖于单一传感器,且存在总线协议不统一、实时性差、应用较为复杂等问题。因此本课题基于ROS平台和EtherCAT通讯技术,将轮式里程计、激光雷达和深度相机等传感器进行融合,搭建了一个能够完
Takagi-Sugeno-Kang(TSK)模糊系统的特点是能使用线性模型的方法求解非线性模型。TSK模糊系统的这个特点使得其在众多的领域都受到了广泛的关注。但是,与其它有监督学习一样,TSK模糊系统需要充足的信息。然而,在真实世界的应用中,训练数据经常是有限的,而模型也不能充分的挖掘数据中的信息,因此很容易导致过拟合问题。现有的TSK模糊系统方法,更多的把目光放在了模型结构的研究上,忽视了实际
RNA结合蛋白(RBP)是一类伴随RNA调控代谢过程,且与RNA结合的蛋白质的总称。一种RBP可能存在多种靶标RNA,其表达缺陷会造成多种疾病。通过寻找功能结构相似的RBP可以为治疗癌症等疾病的RNA疗法提供帮助。在RBP识别的过程中,一个关键的步骤是获取RNA有效特征和使用RBP之间的结合相似性网络来学习它们之间的联系。本文针对上述描述的RBP识别提出了两个多视角多标签特征学习的新策略,较已有的
在复杂工业过程中,对运行中的某些关键变量进行实时监控具有重要的意义,然而受到技术条件有限、检测装置昂贵以及现场环境恶劣等不利因素的影响,这些变量难以利用硬件传感器检测得到。在这种情况下,软测量技术得到应用,通过训练集构建数学模型,实现对新样本质量变量的实时估计。软测量技术通常需要大量有标记样本才能完成高精度模型训练,然而在实际工业过程中常常是无标记样本数量较多,有标记样本数量稀少,且获取成本高。因