论文部分内容阅读
近年来被动声学监测(Passive Acoustic Monitoring,PAM)在齿鲸观测中得到越来越广泛的应用。PAM提供了一种非侵入性的方式记录鲸类动物的声音,以此观测齿鲸的出没,生命活动的季节性,及其种群结构和密度,而这些应用的一个重要前提是能够从记录的数据中检测齿鲸声信号并识别其来源物种。随着PAM技术的不断发展,其采集到的数据越发庞大,而传统的利用人力来识别的方法耗时耗力,效率低下,无法满足人们实时处理齿鲸信号的需求。因此需要可靠的自动化方法来检测和识别齿鲸声信号,使得研究者们能够快速分析PAM实时采集到的大量声学信号。齿鲸发出声信号分为三类,分别是哨声(Whistle),回声定位信号(Click),应急突发信号(Burst pulse)。回声定位信号,也是齿鲸声呐信号,齿鲸通过头部向周围环境发出定位信号,并接收附近各种物体反射的回声,它们利用这些回声来定位和识别物体。由于回声定位信号是所有齿鲸都能够发出的,因此可以利用回声定位信号对进行齿鲸进行观测。同时研究表明不同物种回声定位信号存在一定差异,因此可以利用其进行齿鲸种类识别。本文首先研究了一种基于卷积神经网络(Convolutional Neural Network,CNN)的回声定位信号自动检测算法。信号的检测首先作为一个区分海洋噪声和回声定位信号的二元分类问题,网络由三个卷积层带两个全连接层和一个Softmax分类层组成。在信号检测阶段,将训练的网络转化为全卷积结构提高计算效率,以满足实时检测的要求。在合成数据实验中,当合成的回声定位信号信噪比达到15 dB时对各种齿鲸的回声定位信号召回率高于90%,准确率高于95%。在对实际录音进行回声定位信号检测的实验中,对各齿鲸回声定位信号的召回率满足预期。而后研究了基于回声定位信号的种类识别算法。首先利用CNN检测网络确定回声定位信号在音频的位置,然后将检测到的原始回声定位信号进行能量归一化处理,再利用傅里叶变换提取频谱特征,最终利用6层的CNN识别网络对回声定位信号的种类进行识别。为了提高模型识别的可靠性,采用连续检测到的m个回声定位信号进行联合识别,主要探讨了基于多数投票和基于最大后验概率的联合识别策略。在实验中,与高斯混合模型(Gaussian Mixture Model,GMM)方法比较,CNN识别网络的识别率更高;基于相同的CNN识别网络,最大后验概率的策略比多数投票的策略准确率更高。最后研究了一种基于长短时记忆网络(Long Short-Term Memory,LSTM)的回声定位信号种类识别算法。该方法将CNN识别网络作为特征提取器,通过LSTM的记忆单元对连续的回声定位信号建模,训练模型利用连续的回声定位信号的上下文信息识别齿鲸种类。实验结果表明,尽管与CNN识别模型相比CNN+LSTM模型对长吻原海豚的识别率没有显著的提升,但对于爪头鲸、瓶鼻海豚CNN+LSTM模型均表现出了较优的识别率。而对柏氏中喙鲸、泛热带引航鲸和灰海豚的识别实验中,该模型与其他方法均达到了较好的识别准确率。