基于深度神经网络的自然声学场景内容分析

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:a5592306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今移动互联网与大数据时代,人们可以轻松获取自然声学场景中录制的海量音频数据。如何有效分析与浏览这些音频数据,已成为自然声学场景内容分析领域的研究热点之一。本文以自然声学场景音频作为处理对象,探究声学场景聚类与事件检测问题,并提出有效解决方案。本文的主要工作及创新点如下:(1)目前绝大多数研究工作致力于有监督的声学场景分类,而无监督的声学场景聚类研究工作却极少。本文提出一种基于深度特征学习与聚类迭代协同优化的声学场景聚类方法。首先,提取音频样本的对数梅尔频谱特征(Log Mel Spectrum,LMS),并初始化卷积神经网络(Convolutional Neural Networks,CNN),以便提取深度特征。接着采用凝聚层次聚类(Agglomerative Hierarchical Clustering,AHC)方法合并最相似的两类。根据论文设计的损失函数更新CNN参数。上述深度特征提取过程与聚类迭代过程交替进行,直到满足收敛条件。使用两个主流音频数据集进行评测,采用归一化互信息(Normalized Mutual Information,NMI)和聚类精度(Clustering Accuracy,CA)作为评价指标。实验结果表明:本文方法优于其他传统聚类方法。此外,本文方法提取的深度特征优于其他特征,且本文方法具备良好的鲁棒性。(2)在不增加深度神经网络复杂度的前提下,如何继续提升声学事件检测性能,是自然声学场景内容分析的热点问题之一,也是本文的另一个研究工作。本文提出一种基于空洞卷积循环神经网络的声学事件检测方法。首先,提取各音频样本的LMS特征,构建空洞卷积循环神经网络(Dilated Convolutional Recurrent Neural Network,DCRNN)。接着,采用已构建的DCRNN判断测试样本各音频帧所属的声学事件类型。使用三个主流实验数据集(TUT SED Synthetic 2016、TUT Sound Event 2016和TUT Sound Event2017)进行评测,采用F1-score和错误率(Error Rate,ER)作为评价指标。实验结果表明:与基线方法相比,本文方法取得更优的检测性能,而且神经网络模型参数量没有增加。综上所述,本文提出基于深度神经网络的声学场景聚类与事件检测方法,从多个角度进行实验评测与分析,证明本文方法的有效性。
其他文献
随着对环境污染和替代能源使用的日益关注,迫切需要开发绿色可持续的电化学储能装置。超级电容器作为一种新型的储能装置,以其超高的功率密度、超长的循环寿命和可靠的安全性能被认为是传统蓄电池的重要补充。目前商用超级电容器的电极材料通常为金属@碳复合材料或金属化合物等金属基功能材料,而具有高电容性能的金属基电极材料的制造成本往往较高,限制了其应用范围。因此,价格低廉的金属基电极材料前驱体和简便合成方法的探索
现代制造业对板料成形工艺提出了更高的要求。本文的研究对象是一种某型号教练机用结构加强板,此类零件上的反拉深结构是薄壁钣金件成形中的一大难题。本文首先从零件结构特点板材充液拉深的基本力学公式出发,提出了增加辅助冲头的板材液压拉深复合成形新方法。为了验证该方法的可行性,采用了有限元技术与理论分析和实验研究相结合,对板材液压拉深复合成形过程进行了系统研究。最后,为了缩短新工艺在实际生产中的调参时间,获取
近年来,随着移动通信技术的飞速发展,作为现代通信系统核心的射频集成电路受到越来越广泛的关注。5G通信系统的高速率、低时延以及海量互联的特点要求射频收发机具有更大的带宽和更高的动态范围。可变增益放大器(Variable Gain Amplifier,VGA)作为射频收发机的核心部件之一,其增益动态范围、带宽、线性度及附加相移等性能参数对系统的扫描精度、动态范围具有重要影响。其中,VGA的增益dB线性
现阶段,清洁能源发电比例逐步提高,其高度的不确定性与波动性为电力系统的调峰和调度带来了挑战,对新能源出力的精准预测是维护电网运营供需平衡及安全稳定的关键。针对当前新能源发电超短期功率预测难题,本文基于数据驱动,对深度学习技术在超短期功率预测中的应用进行了深入研究,具体内容包括:1)针对新能源发电运行存在的数据缺失、数据异常和噪声数据等问题,对时序数据的特征分析与预处理技术进行了研究,分析了基于孤立
漆包线是电子元器件连接的关键材料。传统的漆包线点焊由人工完成焊接并进行质量检测。由于微细漆包线与电子元器件尺寸微小,采用人工点焊难以精确定位,并由此产生多种焊接质量不良问题,而人工质量检测也极易造成质检人员疲劳,因此传统的焊点质量检测具有较大难度。本文针对以上问题,将机器视觉技术应用到漆包线自动化点焊定位及焊点质量检测。本文从机器视觉系统的构成及其原理的角度出发,介绍了关于相机、镜头和光源的选型方
在各类电化学电源中,由于Li+较高的荷电密度,锂离子电池凭借高比容量和较高循环稳定性等优势在电子设备和电动汽车等领域得到广泛的应用,但仍存在首圈库伦效率低和充放电速率低等问题,另外,有机系锂离子电池的安全问题也是限制其快速发展的瓶颈。其中,电极材料和电解液是解决这些问题的关键。钼基化合物(包括钼氧化物和钼硒化物)材料具有独特的结构,丰富的钼化合价以及物相组成,理论容量高,且可实现锂离子的快速嵌入/
现今智能手机和互联网技术等的发展极大地便利了人们的日常生活,然而也带来了很多问题,典型的就是人们做事情的注意力下降导致效率降低。提高注意力的前提是对注意力水平进行准确评估,许多对注意力的评估方法如量表分析、图像识别等具有主观性较大和易于伪装的缺点。生理学和神经科学等领域已经证实了注意力与人的脑电信号特征相关,而且近年来随着可穿戴设备和脑机接口技术的发展,使用便携式脑机接口设备来评估人的注意力水平成
钛具有比强度高、耐蚀性好和生物相容性好等优点,在航天航空、军事工业、医疗器械和3C产品等领域有广阔的应用前景。但是钛及钛合金的推广应用面临两大难题:(1)钛产品加工困难;(2)钛的成本高。金属注射成形具有材料利用率高、设计自由度大、尺寸精度高等特点,可以有效解决钛的加工难题。采用廉价的TiH2粉末部分替代球形钛粉可以降低成本。本文制备了一种高效的聚甲醛基钛喂料,应用于钛粉末注射成形,并对注射成形各
随着城市化进程的推进,城市结构调整和产业转型趋势愈加明显,留存的既有城市工业区因效率低下、设施落后、周边业态单一等原因活力下降,造成了资源浪费,与当下城市环境产生断层。当前,大部分工业区改造仍侧重于厂房建筑单体改造等物质环境层面,对改造后工业区的步行可达性和配套设施合理性则较少涉及。引入城市网络分析的理论和工具,结合大数据分析既有城市工业区的空间可达性和设施现状,为既有城市工业区空间提升设计提供一
聚集诱导发光(AIE)指的是一类分子在溶液态下不发光或者发光微弱,但是在聚集态下发光显著增强的现象,与传统的聚集导致发光猝灭(ACQ)现象恰恰相反。1,1,2,3,4,5-六苯基噻咯(HPS)在AIE家族中具有代表性的分子构筑基元。由于噻咯的独特σ*-π*共轭电子结构,HPS拥有高的电子亲和性和低的LUMO能级,加之具有高效的固态发光效率,使得HPS及其衍生物能在有机发光二极管(OLED)领域中有