论文部分内容阅读
声音事件检测是对一段音频检测包含的声音事件和发生位置的技术,声音事件分类则只需获得事件类别信息。这一技术是获取周围环境信息不可缺少的手段,特别在某些特定环境,例如黑暗环境,有着独特的优势。近年来,随着Google发布大型音频事件数据集AudioSet,声音事件检测使用神经网络变成了可能,越来越多的研究者开始关注这一方向,声音事件检测的发展迎来了新局面。但是,不可否认,声音事件检测还面临许多困难。一方面,声音事件的复杂多变,甚至会出现同一时刻发生多个事件的情况,这无疑对检测系统提出了很高的要求。另一方面,具有完善标签的数据集代价昂贵,很难获得,AudioSet是只含有事件类别的弱标签数据集,利用这样的数据甚至是无标签数据得到可用的检测系统也是一项极具挑战性的任务。如今声音事件检测技术还出初步发展阶段,距离真正实用的成熟系统还有许多问题亟待解决。本文主要针对上述两个难点进行研究,首先搭建基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)的声音事件分类与检测系统,该系统使用弱标签数据进行训练。在此基础上,为提取更加具有区分性的特征引入注意力机制,强化有效特征,抑制无用特征。既从局部角度提取有效结构信息,又从全局角度选择可用的通道信息。实验表明注意力机制有效提升了系统的性能。然后提出相比帧级特征信息更加丰富的事件素特征,扩大可视野范围,进一步提出多尺度事件素特征,让持续时间较长的事件使用大尺度事件素特征,持续时间较短的事件使用小尺度事件素特征,提取更加符合声音事件的特性的特征表达。实验表明多尺度事件素对于事件的识别有着积极的作用。最后使用平均教师半监督学习方法利用无标签数据,设计多任务模型,让检测任务和分类任务使用不同分支,缓解两者对特征要求的矛盾,进而教师模型产生更加可靠的学习目标指导学生模型,此外提出使用同时混合有标签数据和无标签数据的数据混合技术,扩大数据范围的同时对数据扰动,从而更好地进行半监督学习,实验表明利用无标签数据能够改善系统性能。