基于智能移动终端的音频场景检测方法研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:jiajianye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能移动终端的场景识别是智能化机器研究的重要分支,在终端定位导航、路径规划和安防监控等方面具有广阔的应用前景。基于音频的场景识别不仅能解决图像处理计算周期长和动态性能差等问题,还具有不受光线变化干扰的特点。智能移动终端配备高灵敏度传感器、大容量内存和高性能CPU,不仅可采集音频信号,还能满足存储和处理音频信号的需要,因此基于智能移动终端的音频场景检测方法研究具有重要意义。本研究首先在智能移动终端上设计了一个应用程序,实现实时音频信号采集、降噪和端点检测。针对传统小波软阈值函数的系数存在恒定偏差和硬阈值函数容易在信号突变处出现伪吉布斯现象的问题,提出了一种新的小波阈值函数来提高降噪效果,新阈值函数在阈值点处连续并且引入了一个指数型收缩因子。采用信噪比作为降噪效果的评价指标,实验证明表明采用新阈值函数对实时音频信号降噪后信噪比可达19.47dB,比传统软硬阈值去噪法的信噪比提高了5dB。为判断采集音频信号的质量和去除静音段,对降噪后的音频信号进行端点检测,采用端点标记正确率作为端点检测效果的评价指标。实验表明,基于改进谱熵的端点检测正确率为90.03%。在借助DCASE数据库提供的音频信号的基础上搭建了音频事件数据库(数据量约为10G),在剔除错误标签和无用音频信号后进行人工构造、标签索引等特征工程化处理。数据库由物理层、声学特征层和语义层构成,物理层保存底层传输信息,声学特征层保存了时频域、倒谱域特征系数和Mel能谱图,语义层保存了实际标签和模型标签。在批量处理时使用音频编号就可以直接读取对应音频的全部信息,这样可以节约计算开销并提升分类模型的效率。采用两种识别模型开展了在线实时音频场景检测研究:1)将融合后的音频特征参数输入随机森林进行识别;2)将Mel能谱图输入卷积神经网络进行识别,对比分析两种不同特征方式对音频场景识别结果的影响。实验结果表明:基于传统特征系数融合随机森林方法的识别率约为77%,而基于Mel能谱图和卷积神经网络的识别率约为68%。因为时频、倒谱域特征系数融合的方式能更好的表征音频信号的动态变换;而Mel能谱图采用加权平局的通道融合方式损失了音频信号的空间变化特征,导致了相似场景识别混淆程度高。
其他文献
信任评估是可信软件中的核心问题。针对Web服务信任的不确定性和主观性特点,引进模糊理论,给出了一种Web服务信任的综合评估方法,同时,以例子说明了这种方法的应用。最后,描述了评估模型的实现。
对胸腹部肿瘤放疗患者,个体化考虑呼吸运动影响决定PTV范围和治疗计划是非常必要的。根据我院放疗中心实际情况研制了一种具有"度量"功能的基准标尺板,能有效地测定随生理呼吸
在青藏高原东部的一个天然高山雪床,沿着融雪从早到晚的顺序设置3个融雪梯度部位,并对每个梯度部位的环境因子和5种典型植物的个体生长特征进行测量和比较。结果表明:3个梯度部
通过核酸序列比对,在蛇苔cDNA文库中获得细胞色素C(Cyt C)基因序列,并对其编码的蛋白质产物从同源性、氨基酸组成、理化性质、亚细胞位点、结构和功能等进行生物信息学分析和预测
在中国第24次和第25次南极科学考察期间,利用航渡表层水观测和普里兹湾定点观测,对颗粒有机碳(POC)的分布及其影响因素进行了研究。结果表明,南大洋表层水体的颗粒有机碳分布具
随着社会的发展和人民生活水平的提高,软件行业也开始蓬勃发展,而软件公司的财务分析却没能跟上行业发展的步伐,给企业提供更好的指导作用。软件行业具有市场需求变化迅速,产
长期大量施用化肥导致烤烟质量和产量持续下降问题一直困扰着我国烟草产业的健康发展,本课题通过从实验室模拟试验、长期定位和大田生产三个方面研究分析长期大量施用化肥对
<正>成瘾是指个体滥用某种药物或不可自制地反复渴求从事某种活动。成瘾的概念不仅包括最早的物质成瘾,如海洛因、可卡因、尼古丁、酒精等,近年来不断有人提出,赌博成瘾、网
2017年3月,一则质押造假事件进入公众视野,在九好集团与鞍重股份并购重组期间,证监会发现九好集团2013年到2015年年报存在不实记载,通过调查发现九好集团隐瞒了银行存款已被