基于神经网络的声音事件检测系统研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yuyuxinmi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测(Sound Event Detection,SED)是利用声音信号的特征去预测其声音事件种类的技术,它在智能家居、公共安全等领域具有较为广阔的应用前景。传统的声音事件检测技术一般基于GMM-HMM模型,其识别准确率较低,且编解码计算复杂度较大,难以在实际生活中得到应用。与传统的机器学习方法相比,近年来国内外研究人员提出了基于神经网络(Neural Network,NN)的检测方法,显著提高了识别准确率。然而,基于NN的SED算法的一个主要问题是它们通常涉及大量参数和浮点运算数(floating point operations,FLOPs),从而导致较高的处理延迟与硬件开销,使得基于NN的方法一般难以适用于要求低延迟和低存储的物联网设备。因此,构建网络复杂度低且识别准确率较高的声音事件检测算法成为本文的研究重点。论文设计了一种低复杂度高准确率的轻量级声音事件检测算法,并在该算法基础上实现了基于FPGA-DPU的声音事件检测系统。以下为本文的主要工作:首先,由于目前声音事件检测算法存在参数量与FLOPs较高的问题,本文使用了一种选择性可分离卷积机制。该机制能够有效降低算法的参数量与FLOPs,同时达到了较高的识别准确率。然后,为了在维持低算法复杂度的基础上提高声音事件检测算法的识别准确率,论文使用了一种协调注意力机制。该机制基本不增加算法的复杂度,可同时作用于通道域、时域和频域,让检测算法重点关注与声音事件检测有关的特征和区域,减少对检测任务影响小的区域的关注。随后,将本文中的轻量级声音事件检测算法通过FPGA的深度学习处理单元(DPU)进行了实现,从而构建了一个基于FPGA-DPU的声音事件检测系统。该系统基于ZCU104平台来开发设计的,通过使用Vivado2020、DNNDK与Peta Linux开发平台完成DPU的部署。最后,在常用的声音事件检测数据集(ESC-50、ESC-10和Urban Sound8K)上进行了测试与分析。本文设计的轻量级声音事件检测算法的总参数量仅为0.246M,算法的FLOPs仅为203M,在ESC-50数据集准确率为87.3%。在基于FPGA-DPU的声音事件检测系统中,ESC50与ESC10数据集中单个音频平均识别时间为8.24ms(Urban Sound8K为6.6ms),完全满足实时性的需求。
其他文献
功率分析仪作为电能质量分析中一个重要的测量仪器,其能实现波形显示、功率参数运算以及谐波分析等多种功能,这些功能为电力系统的质量分析提供了一个可视化与可量化的评估手段。为获得更高的刷新率与运算精度,提高其实时处理性能将具有重大的意义。本文以功率分析仪为研究对象,重点关注其中谐波分析功能的实现方法,通过改变传统以CPU作为数据运算核心,FPGA作为数据采集核心的处理方式,在FPGA中实现谐波信号的数据
学位
机器嗅觉系统又叫电子鼻(Electronic Noses,E-Noses)系统指的是通过模拟生物嗅觉工作方式的一种新型仿生检测系统。其系统主要由气敏传感器阵列与相应的机器学习算法组成,主要完成气体检测和识别等任务。传感器漂移问题是由于传感器自身设计原因,往往不同厂商的同型传感器、相同传感器不同批次、同种传感器的使用磨损程度不同等情况都会造成传感器漂移,从而造成数据分布改变。同时机器嗅觉数据收集实验
学位
土洞墓是在竖向开挖墓道的基础上,横向掏挖墓室的一类墓葬建筑。黄土高原是土洞墓的发源地,也是史前时期土洞墓分布最为集中的区域。本文以墓道与墓室的空间位置关系为分类标准,初步构建出早期土洞墓的时空演变框架,结合同时期的其他考古发现,试图分析土洞墓起源及其封门产生的原因。分类的结果显示,黄土高原早期土洞墓主要有并行结构、前后结构及菜园类三大类,且三者各有源头。在时空框架上,土洞墓出现于仰韶晚期的关中地区
学位
图像是人类视觉的基础,也是信息主要的载体之一。在如今的数字信息时代,受限于物理设备和自然环境,很多时候采集的图像分辨率仍然较低,基于深度学习的单幅图像超分辨率(Single Image Super-Resolution,SISR)技术旨在将一幅低分辨率图像(Low-Resolution,LR)重建成一幅高分辨率图像(High-Resolution,HR),这不但给人们带来更好的视觉体验,同时也能恢
学位
任意波形发生器能构建真实环境信号,被广泛运用于民用与军用测试领域。其中调理通道位于仪器信号通路的末端,将对任意波形合成模块输出的波形信号进行幅度、直流偏置、滤波等调理,使得调理后的信号满足仪器输出指标要求。本文以提升带宽、波形纯度以及信号幅度调节范围等技术指标为目标,设计了一款12GSPS采样率、5GHz带宽、具有多输出模式的任意波形发生器调理通道。主要研究内容如下:1、通道电路总体方案设计与实现
学位
随着人类活动对地面探索的愈发完善,孕育丰富资源的海洋将成为探索研究的重点,而承载这一工作的主要载体水下自主航行器(Autonomous Underwater Vehicle,AUV)的研究自然必不可少的。当前的水声通信带来的低传输效率和搭载的电池容量限制,均使得AUV探测的便捷性、自主性和隐蔽性收到影响。而解决这一瓶颈的可行方案之一则是依托于光通信链路高效链路传输的同时,引入自由空间光学的捕获、定
学位
郑洛地区史前时期的镞,不仅数量多、延续时间长,而且材质丰富、形制多样。但是,尚未见到相关的系统梳理和专门研究。本文尽可能全面地收集了区域内有镞出土的史前遗存资料,以类型学为研究方法,对石镞、骨(角)镞和蚌镞,进行了分类和型式分析,以期厘清它们各自的发展演变规律、空间分布特征,以及相互之间存在的关系。在此基础上,尝试建立了区域内史前镞的分期与年代序列。最后,通过模拟实验,并从社会变化角度,进一步探讨
学位
老爷子齐弘文年过古稀,退休之后,日常喜爱侍弄花草,养小动物,因老伴去世,一个人倍感孤独,于是参加了街坊自发组织的秦腔自乐班。一天,他和街坊演唱秦腔《三娘教子》,因为戏中的曲词,突然愣了神,当他清醒过来之后,后悔自己的因为愣了神,没能在自己的爱慕对象:扬琴吴大姐面前好好表现。当他唱完回家准备做饭时,儿女来探望他,许久未见到子女的他,非常兴奋,滔滔不绝地向子女讲述他的独居生活,但子女缄默不语让他发觉情
学位
小说《明月依旧》主要讲述了主人公们联手探案寻找真相,最终推动了夺门之变,阻止战乱再次发生的故事。这是一场皇权的博弈,也是几个普通人的挣扎求生,在命运面前,无人幸免。景泰七年,太子之位迟迟未定,看似平静的京城迷案迭起。京城商户之女何箬因调查其父何文成失踪一事,与玉春阁酒楼东家顾元恒及刑部侍郎程贤结识。面对悬而未决的迷案,三人各有目的,但仍旧选择联手探案寻找真相,接连侦破了玉春阁案与梨园案。但在结案之
学位
移动设备在如今的社会中非常普及,已经逐渐融入我们的日常生活中。用户不仅可以从官方应用商店下载应用程序,还可以从第三方渠道进行下载。应用程序能给用户提供各种服务,如位置追踪、资金管理等。移动设备在为用户带来便利的同时也存在一定程度的风险。随着用户越来越依赖移动设备,设备上存储的敏感信息也越来越多,这些敏感信息以及庞大的用户群也吸引了越来越多的恶意程序开发者。他们以金钱或以破坏系统环境等目的不断地向应
学位