论文部分内容阅读
随着人们监控要求的日趋复杂多变,迫切需要将信息丰富的音频、视频、图像等多媒体信息引入到以传感器网络为基础的环境监测活动中来,实现细粒度、精准信息的环境监测,多媒体传感器网络因而成为近年来的研究热点。音频语义分析技术对自动感知环境特征、提高环境监测的精确度等具有重要意义。如何有效地提取监控场景中的音频语义信息是多媒体传感器网络的重要研究内容之一。针对多媒体传感器网络中的音频语义分析问题,本文从音频特征选择、基本音频元素检测和音频高层语义分析三个方面提出一系列新模型和新方法。本论文的主要贡献如下:(1)基于可鉴别主成分分析的音频特征集构造方法。音频特征的选择与提取是在多媒体传感器网络中进行音频语义分析的基础。一方面,所选取的特征需要充分体现出音频信息在时域和频域中的重要分类特性。另一方面,为了节省后序处理中的计算能耗,我们需要控制特征维数、降低特征间的冗余性。本文提出了一种基于可鉴别主成分分析的特征集构造方法。该方法将主成分分析方法和线性鉴别分析方法进行结合,既提取了音频信号的最佳表示特征又根据训练样本的类别信息提高了这些特征的鉴别能力。通过这种方法,我们可以提取音频信息中最为关键的并相互独立的特征。(2)基于加权关联图的基本音频元素检测方法。基本音频元素检测是音频底层特征与音频高层语义信息之间的桥梁。在本文中,我们提出了一种基于加权关联图的音频元素检测方法。该方法首先利用隐马尔科夫模型对多种基本音频元素建模,然后,根据先验知识在基本音频元素模型的基础上建立加权关联图模型。此外,考虑到对不同音频元素检测失误所造成的决策风险不同,我们采用基于最小风险贝叶斯决策的方法进行音频元素判定。通过这种方法,我们能够在音频背景复杂、多种音频事件同时发生的多媒体传感器网络中,准确地提取音频低层语义信息。(3)基于神经网络的音频高层语义分析方法。音频高层语义分析对人们理解音频内容具有重要意义。多媒体传感器网络中,节点计算能力有限且背景噪声复杂,因而传统的用于影视节目的基于机器学习或基于逻辑规则的高层语义分析方法不能直接应用于多媒体传感器网络。在本文中,我们提出了一种基于神经网络的音频高层语义分析方法。我们首先选取足够的训练样本对神经网络进行训练,之后,利用先验知识对神经网络的参数进行调整,将机器学习和人们的先验知识进行了有效地结合。通过这种方法,我们能够准确地提取多媒体传感器网络中的音频高层语义信息。(4)验证系统的设计与实现。为了验证本文研究成果的有效性,我们基于本实验室开发的多媒体传感器网络原型系统设计了多媒体传感器网络中音频语义分析的验证系统。并将基于可鉴别主成分分析的音频特征选择方法、基于加权关联图的音频元素检测方法和基于神经网络的音频高层语义分析方法部署到该验证系统上,在交通环境和会场环境下提取音频语义信息。实验证明,本文提出的方法能够在多媒体传感器网络中对音频语义信息进行准确地分析。