基于深度学习的音频场景分类

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:a2619040
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频场景分类是对音频数据的识别和分类,即识别判断所记录声音的环境标签,可以应用于音频监控、异常发现和风险防控等多种安防监听系统。随着音视频监控等场合记录的音频数据越来越多,传统分类方法在面对大量数据时显现出了劣势,而此时深度学习技术则已被证明在利用数据特征和建立模式识别方面具有特定优势。本文以卷积神经网络为主要模型,从数据集和网络结构两方面对音频场景分类系统做出改进,分别在未引入更多数据量的前提下对数据集信息进行了再挖掘,在未增加计算量的前提下对网络结构做出了调整,从而有效提高了部分场景的识别准确率。本文所做的主要工作包括:(1)针对数据集进行了信息挖掘标签再标记。良好的数据集对提高分类准确率至关重要,尽管在多数公开的数据集中,每条数据仅带有一个简单的标签,但对数据集的介绍文档往往提供了一些其它辅助信息。所以本文除了根据数据集原始标签进行分类训练,还通过对数据集的分析进行松散类的再标记,获得二次分类结果,再对二次分类结果进行类别映射,最后融合两次分类结果。当已知初次分类结果时,可以发现多种类别的准确率往往不是均匀分布的,所以本文针对初次分类结果中准确率最低的一类,寻找最容易误判为该类的类,通过再标记对它们单独二次分类,同样对二次分类结果进行类别映射后融合两次分类结果。实验结果表明,这种再标记的方法对部分音频场景类别的准确率有显著提高。(2)针对神经网络模型在结构中引入了残差单元。传统的神经网络随着网络深度的增加,训练时间消耗增加,网络的效果会提高至饱和,然后迅速劣化。所以本文在基础网络中添加了适当的残差单元,通过给卷积层增加直连边来提高信息的传播效率,基于残差单元的卷积神经网络的最终结果达到了较高的准确率,相比于单独的卷积神经网络的准确率也有一定提高,在相同数据量的情况下训练时间明显缩短。
其他文献
随着移动互联网的迅猛发展,通信业务种类不断增长造成网络流量持续上升,对传统网络资源分配问题提出巨大挑战。SDN和NFV技术增强了网络的灵活性和扩展性,通过网络切片能够为各种业务需求提供灵活的资源分配,在此过程中VNF的编排、部署和调度是非常关键的问题,决定了网络服务性能和用户体验优劣。同时,随着网络技术在生活中的广泛应用,人们对通信质量和数据隐私提出了更高的要求,于是SFC的安全问题就变得非常重要
随着通信与网络技术的飞速发展,网络流量呈现了爆发式的增长,而在这些网络流量中往往混杂了威胁着网络安全的恶意流量,如何及时检测和处理潜在的恶意流量,已经成为互联网时代下实现网络安全的重要目标。近年来,机器学习应用于恶意流量识别逐渐成为研究热点,但是现有的基于机器学习的恶意流量检测方法大多是利用大量已标记的数据进行模型训练,即采用有监督的机器学习方法来实现对恶意流量的检测与识别。然而,对流量数据进行逐
以自主研制的动态指向式旋转导向钻井工具原理样机为研究对象,在分析陀螺仪、三轴重力加速度计噪声特性的基础上,深入研究测量信号的处理方法,实现了对稳定平台转速、重力工具面角的准确测量。首先,介绍旋转导向钻井工具的国内外研究现状,对比不同旋转导向钻井工具的工作原理,分析动态指向式旋转导向钻井工具的优势,明确课题研究目标。其次,介绍定向钻井参数与动态指向式旋转导向钻井工具的工作原理,着重介绍其测量系统,并
随着信息技术的快速发展,互联网用户量和信息量规模不断扩大,海量的信息资源导致了信息过载。推荐系统是解决信息过载的有效方法。但是,现有的推荐系统仍存在稀疏性、冷启动等问题。为此,本文首先提出一种基于Bhattacharyya系数的相似度计算方法,来解决推荐系统中的数据稀疏问题;接着,提出基于标签感知的混合神经网络模型,来解决标签推荐中存在的稀疏、冗余和语义模糊问题,同时缓解了冷启动问题;最后,结合上
江北区慈城镇是中国历史文化名镇,拥有7000年的文明史、2500年的建城史、2200年的建县史以及1200年的县城史,是江南地区保存最完整的古代县城,是中国唯一入选BBC全球"传承的英雄"的文化保护典范,获得联合国教科文组织亚太地区文化遗产保护荣誉奖。
期刊
运动分割是计算机视觉与视觉信息处理领域的一种重要运用,它是分析视频场景与目标跟踪技术的基础,所以在很多方面都得到应用,比如:视频监控,汽车自动驾驶,自动导航,自动追踪等领域。近几年,视频数据在急速扩张,传统的聚类算法在面对如此高维的数据的时候已经显得很乏力,所以算法的改进是一直被广泛关注的课题,同样,在运动分割领域,高维数据,异常值数据,视角的不确定性都对传统算法提出了挑战,所以对现有的运动分割算
近年来随着智能交通辅助管理技术的不断进步发展,其为人们的生活增添了诸多便利。视频监控作为交通辅助管理的主要数据来源之一,其数据增长速度远超当前网络带宽的增长速度,为此实现视频流数据的高效处理是当前的一个研究重点。云计算虽然能实现数据的高效处理,但是中间数据传输延时较高,难以满足交通视频流数据处理时效性的需求。因此,边缘计算相关技术应运而生,其作为云端的算力衍生,在一定程度上缓解了以上问题。而国产龙
柔性相变执行器即使用柔性、可拉伸材料制成的相变执行器,在工业、医学、生物学、仿生机器人学等领域都有广阔的应用前景。本文设计、仿真并制备了两种结构的相变执行器,并搭建了三维重建系统,基于结构光三维重建检测技术对其应变性能进行了分析,主要研究内容如下:首先分析了相变执行器流体和超弹性体的模型,并设计了两种相变执行器的结构——单腔相变执行器以及双腔-微流道相变执行器,使用有限元分析(FEA)对这两种结构
指静脉特征识别技术凭借其安全性、易获取性、唯一性等优势在生物特征识别领域逐渐成为一个研究热点。但是限于拍摄环境、硬件系统和硬件成本,得到的图像其分辨率往往无法达到预期目标,分辨率低下的图像会严重影响识别系统的识别率。高分辨率图像拥有大量的图像细节,细节信息携带了丰富的图像特征,这对于指静脉图像的识别率至关重要。在这种情况下,通过基于学习的算法将低分辨率的图像转化为高分辨率的图像是一个可行的方案。图
物联网的快速发展,越来越多的物联网装置被部署到网络中负责数据的采集、存储、处理。在感知层的物联网装置负责收集用户的数据并传递,在网络中的物联网装置负责对数据进行处理。无论是感知层还是网络层的物联网装置均需要与其它装置进行互相通信,协作才能完成任务。在物联网装置进行通信前,数字标识作为其在网络中的身份证明,起着十分重要的作用。目前,物联网中主要采用注册服务器对物联网装置的标识进行集中管理。这种方式存