论文部分内容阅读
生物多样性锐减威胁着人类的生存。为了有效保护生物多样性,需要发展各种形式的监测技术。基于声音的生物多样性监测越来越受到人们的重视。这不仅因为它属于被动式监测、对生物无干扰、24小时全天候、数据量小,更重要的是因为它能直接监听生物之间沟通的信息及相关行为,这为保护生物多样性提供了重要的数据依据。
随着生物多样性监测向着长时间、大范围和实时性的方向发展,人工识别录音记录的方式已经无法满足实际应用需求,亟需发展高效精确的自动探测方法。由于生物声音复杂多变且与人类语音差别很大,无法进行可控制的生物声音训练样本采集实验,缺乏生物相关的语言知识和野外环境背景噪声异常复杂等原因,直接移植语音自动识别领域的技术成果是不可行的,而是应该根据目标生物声音的特征和应用问题发展适合的生物声音探测技术。
当一个生物声学家或者生物声音探测技术的其他应用者面对繁多的特征类型和模型方法时,快速合理地选择特征类型和模型方法来解决具体的生物声音探测技术相关的应用问题就会变得困难起来。实际上,生物声学家在进行抉择时,原则之一往往是平衡探测性能高低与实现代价大小之间的关系,因为探测性能高的算法其实现代价往往也很大。而基于声音的生物多样性监测系统一般都是工作在资源有限条件恶劣的野外环境中,实现代价过大的算法并不实用。生物声学家最希望找到的就是探测性能高且实现代价小的探测算法。正因为有这样的应用需求,本文建立起了一套通用的生物声音探测问题的解决方案和技术框架,旨在为合理地选择生物声音探测方法提供确切的依据和科学的建议。
由于探测单元在探测性能高低、实现代价大小上起到重要的指示作用,并且每类探测单元具有不随具体模型变化的通用的技术路线,所以作者提出生物声音探测问题可从帧、窗口和片段三类探测单元出发寻找出探测性能较高而实现代价较小的探测方法(模型和特征)。作者定义了通用的非目标声音类型,将非目标声音类型分为通用噪声类型和通用信号类型,并提出采用现有的语音活动检测算法来找出非目标声音类型的训练数据。然后,作者挑选了FOM(Figure Of Merit)和最大假阳率作为探测性能评价的主要指标,设计了long_auc和short_auc(两者都是AUC的变体,Area Under Curve)作为探测性能比较的主要指标。最后,作者设计了统一的参数寻优方法。对寻优范围内的每一套参数值,作者采用Bootstrap重采样方法来直接估计FOM,并选择FOM最大时的参数值作为最优参数。作者还设计了寻优范围自动扩展机制,在一定程度上弥补人为设定的寻优范围的不合理性。至此,作者建立起了一套通用的生物声音探测的解决方案,以满足不同的生物声音探测应用需求。
作者将上述通用的解决方案用于白枕鹤起始叫声的探测,以便为人们设计针对濒危动物白枕鹤的自动监测系统提供重要的决策依据。采用的特征有三类:语谱图、梅尔倒谱系数和感知线性预测系数。对于基于帧的探测,作者尝试了高斯混合模型和支持向量机。当模型采用高斯混合模型,特征采用梅尔倒谱系数时,FOM的平均值最大,为0.2125。对于基于窗口的探测,作者尝试了两套模板匹配算法。当模型采用均值模板,特征采用语谱图时,FOM的平均值最大,为0.5185。对于基于片段的探测,作者尝试了隐马尔科夫模型。当特征采用感知线性预测系数时,FOM的平均值最大,为0.5675。
通过比较基于不同单元的探测方法的性能优劣,并综合考虑探测算法实现的难易程度,对于白枕鹤起始叫声的探测问题,作者提出如下建议:当要求小的实现代价而对精度要求不是特别高时,可以采用基于语谱图特征的均值模板方法作为探测方法;而当对探测精度和性能稳定性要求较高而允许较大的实现代价时,可以采用基于感知线性预测系数的隐马尔科夫模型作为探测方法。