论文部分内容阅读
声音分类是多媒体信息处理中的基础性研究工作,是声音数据结构化的核心技术,在信号处理、语音识别等领域都有着重要的研究意义,众多领域对于高性能的声音分类系统有着迫切的需求。近年来,随着深度学习技术的发展,深度神经网络与音频数据处理分析的结合成为了新的研究热点,尤其是具有代表性的卷积神经网络在声音分类任务上取得了显著成效。本文基于卷积神经网络模型对声音分类方法进行研究。首先,本文针对现有方法难以从音频数据中提取强区分度特征的问题,提出了一种带特征融合机制的多尺度时域卷积网络模型(WaveMsNet)。我们分析了卷积神经网络在波形信号提取中存在的两难问题,即无法使卷积核分布在全频带上的同时提高特征频率分别率,在这种问题下,我们通过网络提取的特征总是不能很好的表达音频信息,为此我们提出一种多尺度时域卷积操作用于增加特征的区分度。同时我们还提出了一种特征融合方法,将网络提取的波形特征和二维时频特征在同一个网络中进行有效融合。在声音分类公开数据集ESC-10和ESC-50上,多尺度时域卷积操作可以使分类准确度平均提升1.95%和2.82%,在加入特征融合方法以后我们取得了比之前工作更高的分类性能。其次,为了解决在标记数据相对不足的情况下声学分类模型泛化能力差的问题,我们提出了针对音频数据的混合样本学习方法。在神经网络的训练中,为了减小训练集和测试集之间的性能差异,数据增强是一种被广泛使用的方法,它是在保持数据语义信息不变的情况下,对数据做多种变形,从而丰富特征模式,提高网络的泛化性能,但是这种方法独立看待每个样本,并没有考虑样本之间的变化,所以忽略了不同样本之间的关系。在本文中,我们考虑让网络从一个样本对,即两个不同样本中构建特征模式,从而学习同类或不同类样本对之间的联系和区别。我们提出了基于混合样本的学习算法,该算法可以适用于各种卷积神经网络结构。为了解决使用什么样的样本混合方法更好的问题,我们针对时频特征和波形特征两种音频特征,提出了多种样本混合方法。实验中,我们在不同网络结构下对比验证了这些方法的性能,在DCASE2018Task2数据集上,我们提出的Overlay方法针对时频和波形两种特征,最高可使准确度提升3.68%和3.27%。