安全监控中音频事件检测的关键问题研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户：parrotxu

【摘要】

：

自近些年,人工智能的发展日新月异,音频事件检测成为热门研究方向。音频信号用于安全监控的优势在于其是一维信号,存储量小,计算效率高,对于现有的视频监控系统中成本高,复杂

【作者】

：

于晨晨

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

音频事件检测色度统计特征图谱法卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自近些年,人工智能的发展日新月异,音频事件检测成为热门研究方向。音频信号用于安全监控的优势在于其是一维信号,存储量小,计算效率高,对于现有的视频监控系统中成本高,复杂度高,存在盲区等问题是一个非常好的弥补。可以说,音频事件检测有着非常广泛的应用前景,值得深入研究。音频事件检测是音视频检测及音频场景分类问题的核心技术,也是智能家居及无人驾驶技术的最核心技术之一。音频事件检测存在着一些技术难点和问题,最核心的问题还是特征的提取问题。本论文从特征入手,分别以色度特征基础提取短时特征,又针对每段音频提取长时特征,同时应用了图谱法与深度卷积神经网络相结合对音频事件检测技术进行研究,针对性的解决核心问题。在本论文中,共使用了三个数据集,纽约大学的公开数据集UrbanSound8K、ESC-10及实验室的自有数据集SMSEC。其中,SMSEC数据集包含门声、脚步声、玻璃破碎声、枪声、尖叫声、说话声等六种。UrbanSound8K和ESC-10都是包含了 10种音频。本论文从音频的本质出发,提出了三种不同的特征提取算法:1.基于长短时特征的识别研究(1)基于色度等特征的短时特征提取本论文提取了色度等特征,提取出每帧对应的特征,做为该帧的短时特征。为了减少特征的冗余性,提升特征的鲁棒性。论文中,对特征采用了标准归一化的方法,并且使用random forest的方法计算特征的重要性,并且去除不重要的特征。实验表明,使用该方法可以显著提升识别效果。在UrbanSound8K中,短时特征-DNN的识别正确率为 55.6%,高于 baseline 中 MFCC-GMM 和 MFCC-DNN 的 50.1%和53.0%,分别高于两者5.5和2.6个百分点。在ESC-10中,短时特征-DNN取得了 76.5%的准确率,远高于该数据集上MFCC-GMM的59.8%及MFCC-DNN的68.50%。在实验室自有数据集上的表现最为明显。短时特征-DNN的效果为91.4%,远高于本数据集上MFCC-GMM的80.6%及MFCC-DNN的73.1%。显然,该特征在多个数据集上都能表现出异常好的效果,说明该特征具有较好的普适性及识别效果。(2)基于统计特征的长时特征提取在短时特征的基础之上,我们做了进一步的研究和理论升华。针对每段音频的多帧短时特征,我们在短时特征的基础之上,提出了多帧音频特征的最大值、最小值、均值、中值、方差、峰度、偏度等统计量作为该段音频的统计特征,并以此统计特征作为长时特征。实验表明,经过提取统计特征,能够显著降低计算的复杂度,提升识别的训练速度和准确率。针对长时特征,我们分别使用了 SVM,Random Forest、DNN与长时特征相结合,得到识别的精准率、召回率、正确率。在 UrbanSound8K 数据集上,SVM、RandomForest、DNN 与长时特征的识别正确率分别达到了 67.90%、67.8%及68.6%,远高于短时特征-DNN 的 55.6%。在 ESC-10 数据集上,SVM、RandomForest、DNN与长时特征的结合识别效果达到了 82.5%、85.3%及84.8%,同样远高于短时特征-DNN的76.5%。在SMSEC上,SVM、random Forest、DNN与长时特征的识别效果分别达到了 95.9%,96.6%及95.5%,同样高于短时特征-DNN的91.4%。该结果也明显好于上届的四分类效果的96.1%。2.基于图谱法的识别研究图谱中含有大量的音频结构信息。因此我们可以使用图谱法对音频事件检测进行研究。本论文中研究了两种图谱,分别是声谱图及色度谱图,声谱图反映了音频的能量、频率、时间的分布。色度谱图是基于色度特征的频谱。这两种图谱分别于深度卷积神经网络相结合,进行探讨图谱法的实验效果。

其他文献

热分析法测量相变温度的研究

基于在连续冷却过程中,材料发生相变时,有一定的相变潜热释放的原理,建立了热分析法测定材料相变点的分析方法。详细介绍了热分析法的原理及其具体的实现方法,同时对X80管线

期刊

连续冷却相变潜热热分析法管线钢相变点

能手-熟手教师对化学教学内容认识的对比研究——基于“化学反应速率”教学的课堂观察与访谈

通过对能手与熟手教师"化学反应速率"教学的课堂观察和访谈,发现能手-熟手教师对同一教学主题化学教学内容的认识与理解存在较大差异。能手教师对教学内容的认识水平更高,对

期刊

能手教师熟手教师化学教师课程观察化学反应速率

“安信事件”

近日,由于项目方不具备地产开发二级资质,安信信托运用资产收益权信托这一具有法律风险的融资模式,发放信托贷款,事后,项目方昆山纯高以安信信托额外收取2335万财务顾问费,且

期刊

安信信托信托公司信托贷款顾问费收益权信托

正颌手术辅助数字化咬合导板制作生成系统的设计与实现

研究目的:正颌手术中不可缺少咬合导板的使用。相较传统模型外科的咬合板,我们制作的数字化咬合导板具有更精确、更直观、更便利的优势,进而分析研究数字化咬合导板的制作生

会议

数字化咬合导板正颌制作流程

英国投资3130万美元研发自动驾驶及互联汽车

<正>据悉,英国政府将投资3130万美元用于自动驾驶及互联汽车(CAV)研发项目,目的是进一步提升英国在该颠覆性技术及服务领域的领导地位。英国商务及工业部长Richard Harringto

期刊

全自动驾驶颠覆性技术

浅谈财务风险的分析及解决对策

当前,随着经济全球化的深入发展,市场的不确定性不断加大,许多企业,尤其是我国中小型企业又把目光重新定位在财务风险的防治上。财务风险是由于企业财务结构不合理、融资不当

期刊

财务风险中小型企业关键解决方法

含牙根的数字化排牙方法研究

目的研发出一种包含牙根和高精度牙冠的数字化排牙方法。方法获取15名患者锥形束CT的全牙模型和结构光的牙冠模型,行迭代最近点(Iterative Closest Points)算法对两种模型进

会议

锥形束CT结构光扫描数字化排牙包含牙根

VEGF、COX-2和MMP-9在结直肠癌的表达及临床意义

背景：结直肠癌是世界范围内最常见的恶性肿瘤之一,其发病率和死亡率都在不断上升。到目前为止,临床病理分期仍然是预后的金标准,而最准确的预后标准应该是临床病理和分子指标

学位

结直肠癌侵袭转移VEGFCOX-2MMP-9

中小企业发展跨境电商战略研究

中小企业跨境电商的发展是全球经济一体化的必然趋势,也是现代经济追求高效率、高效益的必然结果。针对与当前中小企业发展跨境电商的现状,其中存在着不少的问题,特别是在全

期刊

中小企业跨境电商挑战与机遇现状与问题战略思考

罗湖有个“文化公园”

期刊

深圳市书法家协会二级美术师美术家

安全监控中音频事件检测的关键问题研究

与本文相关的学术论文