可变形特征图残差网络用于典型城市声音识别研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：sipuree

【摘要】

：

【作者】

：

刘芙伶

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2020年期

【关键词】

：

可变形特征图网络典型城市声音识别识别方法特征提取问题区域卷积核特征融合数据增强

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

城市声音监控作为视频监控的补充，可以弥补视频监控受天气、遮挡物等影响的不足。对城市声音的有效监控可提高人们的声学舒适度，对城市中各类场所进行安全预警，同时可为城市管理者提供大量的有价值的指导信息。城市声音识别(Urban Sound Recognition,USR)是城市声音监控的核心内容，城市声音种类繁多，通常包含复杂的背景噪声。长期以来，具有复杂噪声环境的声音信号处理方法一直是研究者关注的热点及难点问题。本文以典型城市声音为研究对象，开展特征提取及识别问题的研究。探讨一种基于卷积神经网络(Convolutional Neural Network,CNN)的城市声音识别方法，为城市声音监控提供核心理论及技术基础。
　　本文提出一种可变形特征图残差网络(Deformable Feature Map Residual Network,DFM-ResNet)，主要针对城市声音对数梅尔谱图在能量集中区域存在尺度多变，几何结构复杂，轮廓边缘不规则，带来的特征提取困难，导致识别性能下降的问题。同时提出应用迁移学习、声音数据增强及特征重标定技术进一步提高网络对城市声音的识别性能。本文开展的主要工作如下：
　　①充分调研国内外城市声音识别方法研究现状，对典型城市声音时频特性进行分析，深入研究基于CNN进行声音时频图像特征提取及识别的相关方法。本文通过特性分析得出，时频域特性可以较好的描述城市声音的特点。并且由于城市声音往往具有较强的背景噪声，因此，能增强能量较低频率分量显示的对数梅尔谱图，是展示其时频域特性的很好的选择。但对数梅尔谱图能量集中区域存在尺度多变，几何结构复杂，轮廓边缘不规则的问题。相较于传统方法，基于CNN的声音时频图像识别效果较好，但传统的CNN中，卷积核常在图像不感兴趣的区域采样。为此，要解决具有背景噪声的城市声音识别问题，需要进一步对CNN进行改进。
　　②提出多级特征融合网络用于典型城市声音识别方法。为适应城市声音对数梅尔谱图能量集中区域的尺度变化，同时减少池化等过程造成的特征信息的丢失，设计一种多级特征融合网络(Mult-level Feature Fusion Network,MFFNet)。MFFNet通过由不同大小的卷积核的卷积层组成的Inception模块，适应能量集中区域的尺度变化。设计一种快捷连接方式将网络中未进行池化的特征图与网络较高层特征融合，减少网络特征提取时的信息丢失。将MFFNet用于典型城市声音识别，并提出对典型城市声音进行数据增强及参数迁移，减少城市声音的小样本问题对识别性能的影响。
　　③提出可变形特征图残差网络用于典型城市声音识别方法。由于②中提出的MFFNet的卷积核大小、形状和采样位置固定，使其不能适应城市声音对数梅尔谱图能量集中区域几何结构及轮廓形状的变化。为此，提出DFM-ResNet解决上述问题。提出的网络的核心为可变形特征图残差模块，主要包括偏移层与卷积层。偏移层将输入特征图的像素点移位，移位后的特征图通过快捷连接与卷积层提取到的特征图叠加，使网络集中在感兴趣的特征图区域采样，并向下级网络传递移位后特征图信息。将DFM-ResNet用于典型城市声音特征提取及识别。与②中相同，也对典型城市声音进行数据增强及参数迁移，并采用重标定模块解决各通道特征权重分配的问题。
　　④设计并开展相关的验证实验。主要的实验目的为：验证MFFNet与DFM-ResNet的有效性；验证基于MFFNet与DFM-ResNet的典型城市声音识别方法的优越性。实验结果表明：MFFNet和DFM-ResNet对典型城市声音识别均有效，其中，DFM-ResNet性能更优。并且基于MFFNet和DFM-ResNet的典型城市声音识别方法与目前已发表文献的最优方法比，效果得到提高，其中基于DFM-ResNet的典型城市声音识别方法效果较好。证明本文的研究是有效的，并且对具有噪声环境的声音信号处理有一定的借鉴价值。

其他文献

菲住酒店“联盟模式”

更轻的酒店“加盟”模式来了？　　今年7月，在众多OTA、酒店巨头外，飞猪也终于将触角伸向了单体酒店市场。菲住酒店联盟是飞猪旗下会员制酒店品牌。虽然定调为“会员制酒店品牌”，但按其对会员、流量的玩法，对商家的运营加持，菲住酒店联盟并不像一个酒店品牌，显然也不是OTA模式。不过，其招纳酒店的速度，似乎不亚于狂奔的OYO。　　阿里巴巴副总裁范驰（花名：程咬金）以及未来酒店CEO、菲住酒店联盟项目负责人庄

期刊

IPTV变局与抉择

從有线到IPTV、从通信运营商到播控运营商，在过去的一年里，都被诸多的合作不确定性和变化性所裹挟、所困惑。红利的衰竭，业态的变迁，比想象中来的更快。变局和抉择将成为从2019?2020年间，萦绕产业链各方心头的焦虑和思考。政策高压下的运营商思变　　截止2019年10月29日，工信部发布数据，国内IPTV用户达到2.94亿，预计到年底应稳破3亿，而同期有线电视用户总量则降至2.12亿，此消彼长下，I

期刊

将职业经理人推向项目管理

随着项目管理对组织战略实施的价值越来越明显，项目经理将越来越多地担任高调而具战略性的角色，甚至在带领组织走向即将来临的颠覆性时代时，担任更加重要的位置。　　由PMI（项目管理协会）发布的2018《职业脉搏调查》（Pulse of the Profession?）报告中，对于项目经理之于企业的重要价值提出了严峻的课题。　　当前，来自技术、商业等诸多变化，给企业组织带来了巨大的挑战，其主要表现在以下四

期刊

复盘中概股2015

就在全球新冠疫情大爆发期间，特别是在美国的新冠疫情陷入极度焦虑背景之下，在美上市的中概股，却遭做空公司接连精准狙击。　　继瑞幸咖啡在今年1月31日被做空机构浑水（Muddy Waters LLC）精准狙击后，4月7日，爱奇艺又遭浑水和第三方研究公司Wolfpack Research看空，Wolfpack Research指认爱奇艺虚增了80?130亿业绩，首次利空打击，爱奇艺股价当日早盘跳水一度跌

期刊

高情商的“向上管理”

无论你是刚进入职场的新人，还是久经职场江湖的职业经理人，要想在工作中如鱼得水，就需要“向上管理”，因为在任何公司或组织中，可以允许大多数人没有下属，却很难允许少数人没有上司。　　如果你是别人的上司，请千万不要误会“向上管理”。向上管理的目的，是告诉下属如何用上司较为满意和喜欢的方式做一个出色的下属。因为下属一旦掌握了向上管理的基本要领之后，会让上司的工作越来越顺利，并且会让上司从优秀到卓越。如果你

期刊

企业如何成为颠覆性时代的赢家

根据PMI（项目管理协会）《职业脉搏调查》①系列报告发现，有一类PMI称之为创新组织的企业在项目成功率上高达71%，并通过对新技术的应用在客户满意度、产品和服务质量、相关收入和生产力改进方面取得了极大提升。　　“百箱大战”　　随着智能音箱款式的爆发，名副其实的“百箱大战”正式到来。全球权威市场调研机构Canalys发布了《2018年第三季度中国智能音箱市场报告》。数据表明，高速发展的中国智能音箱市

期刊

格局决定成功！

创业必须讲究方法论。今天互联网的竞争格局，远远不是十年前的样子，必须具有不同的创见，而不同的创见的前提，就是要有行业格局认知，看清大趋势，在大趋势下做判断。所谓战略，就是在这样的格局认知下，找到破局点，制定路线图，投入资源。如果不去建立这样的认知，公司很容易陷入误区。　　今天的移动互联网，纯粹靠一个单点爆发，已经很难。过去的10年，甚至20年，互联网是一片蛮荒之地，需求稀缺，人才也稀缺。只要你投身

期刊

为“无法表示意见”点赞！

按照惯例，每年的财报季，各上市公司都会披露会计事务所就自身财报的审计意见。至本刊本期截稿，已有多达40家上市公司所聘请的会计事务所给出了“无法表示意见”的结论。　　回顾2016?2017年，被会计事务所“无法表示意见”的上市公司，分别为10家和17家。这意味着，在连续的三年中，被会计事务所“无法表示意见”的上市公司有增多的趋势。以2016年为基数，2017年比2016年“无法表示意见”增加了70%

期刊

合众思壮，中国“北斗+”

随着去年中国北斗卫星导航定位系统向世界宣布，北斗卫星导航定位系统正式具备全球定位能力，可在全球范围，全天候、全天时，为各类用户提供高精度、高可靠的定位、导航、授时服务，中国卫星导航产业进入了重大历史发展机遇。　　根据《国家卫星导航产业中长期发展规划》，到2020年我国卫星导航产业规模将达到4000亿元，北斗卫星导航系统对国内卫星导航市场贡献率超过60%?80%。按照目前产业总体产值年均20%的增长

期刊

每个公司都需要“CAIO”

AI创造的价值不断增加，每个企业的发展都离不开AI主流化，同时也对人才提出了新的要求。未来，掌握AI技术的工程师也成为必需的标配，而且每个企业都要有一个“CAIO”。　　经过近些年蓬勃的发展，AI已经进入商业应用时代，自此，偏重科研发现的“AI黑科　　技”不再是AI创业的主旋律，进入“AI+”模式迫在眉睫。那么，在未来将迎来高速成长的“AI赋能行业”又提出怎样的人才需求？　　从“AI黑科技”进入“

期刊

可变形特征图残差网络用于典型城市声音识别研究

与本文相关的学术论文