基于卷积神经网络的声音分类方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:su18tt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音分类是多媒体信息处理中的基础性研究工作,是声音数据结构化的核心技术,在信号处理、语音识别等领域都有着重要的研究意义,众多领域对于高性能的声音分类系统有着迫切的需求。近年来,随着深度学习技术的发展,深度神经网络与音频数据处理分析的结合成为了新的研究热点,尤其是具有代表性的卷积神经网络在声音分类任务上取得了显著成效。本文基于卷积神经网络模型对声音分类方法进行研究。首先,本文针对现有方法难以从音频数据中提取强区分度特征的问题,提出了一种带特征融合机制的多尺度时域卷积网络模型(WaveMsNet)。我们分析了卷积神经网络在波形信号提取中存在的两难问题,即无法使卷积核分布在全频带上的同时提高特征频率分别率,在这种问题下,我们通过网络提取的特征总是不能很好的表达音频信息,为此我们提出一种多尺度时域卷积操作用于增加特征的区分度。同时我们还提出了一种特征融合方法,将网络提取的波形特征和二维时频特征在同一个网络中进行有效融合。在声音分类公开数据集ESC-10和ESC-50上,多尺度时域卷积操作可以使分类准确度平均提升1.95%和2.82%,在加入特征融合方法以后我们取得了比之前工作更高的分类性能。其次,为了解决在标记数据相对不足的情况下声学分类模型泛化能力差的问题,我们提出了针对音频数据的混合样本学习方法。在神经网络的训练中,为了减小训练集和测试集之间的性能差异,数据增强是一种被广泛使用的方法,它是在保持数据语义信息不变的情况下,对数据做多种变形,从而丰富特征模式,提高网络的泛化性能,但是这种方法独立看待每个样本,并没有考虑样本之间的变化,所以忽略了不同样本之间的关系。在本文中,我们考虑让网络从一个样本对,即两个不同样本中构建特征模式,从而学习同类或不同类样本对之间的联系和区别。我们提出了基于混合样本的学习算法,该算法可以适用于各种卷积神经网络结构。为了解决使用什么样的样本混合方法更好的问题,我们针对时频特征和波形特征两种音频特征,提出了多种样本混合方法。实验中,我们在不同网络结构下对比验证了这些方法的性能,在DCASE2018Task2数据集上,我们提出的Overlay方法针对时频和波形两种特征,最高可使准确度提升3.68%和3.27%。
其他文献
介绍了凿岩钎具钢的冶炼与热挤压的工艺情况、生产线的特点以及工程中遇到的难点问题.工程实践表明,该工艺技术可行,投产后产品质量可靠稳定.
It is a multifactor optimization problem to arrange examinations on a large scale for universities. In this paper, a kind of grouped optimization algorithm was
以玉米皮渣为原料,酶解其不溶性膳食纤维,使其改性转化为水溶性膳食纤维,利用纤维素酶和半纤维素酶复合酶解玉米皮渣,采用单因素实验和正交实验方法,研究水不溶性膳食纤维改
在借助于射击方法和 homotopy 技术概括的这份报纸,一个数字方法为免费多点的边界价值问题由 Cadenillas 和 Fernando Zapatero 在汇率的干预建议了的计算被给。一个数字例子
伴随着全球对“智慧城市”建设的探索,国内进一步衍生出了“智慧城管”概念。在新一代信息通讯技术支撑下,智慧城管不仅有效地提升了城市管理效率,降低了城市管理成本,更凭借着自身具备的可持续性创新不断倒逼着城市治理理念、方式优化转型。2016年起,常州市武进区在前期数字城管建设基础上尝试向智慧城管转型,得到了政府和全社会的高度关注。本文首先分析了智慧城管的相关概念和理论基础,界定了智慧城管、智慧城市、城市
目标的信息的不完全性可以是最大妨碍到执行从例子的感应的学习。在这份报纸, limited-non-symmetric 类似关系的概念被用来提出近似的一个新定义到一个不完全的信息系统。与
<正> 网络计划技术又称统筹法,是一种组织生产和进行计划管理的科学方法。它的基本原理是:利用网络图表达计划任务的进度安排及其中各项工序之间的相互关系。在此基础上进行
随着我国历年来投资业务规模逐年扩大,PPP项目被政府广泛应用于各类基础设施的投资,同时建筑类企业的资产负债率一直呈增长趋势,用表外模式进行PPP项目投资的情况日益普遍,不