论文部分内容阅读
随着互联网技术和多媒体技术的不断发展,音频信号作为多媒体信号的重要组成部分,对其进行分析和处理引起了越来越多研究人员的关注,而张量分析是近年来被广泛使用的多边或者多线性分析工具,可以处理不止一个影响因素的信号,包括信号的高阶扩展形式或者本身是多维度的信号。本文把张量分析方法引入到多因素音频信号建模及其应用研究领域,利用其作为一种多因素分析方法在处理高阶信号方面可以保持数据结构信息的优势,解决音频信号的高阶特征建模、音频分类的高阶子空间分析和多声道音频信号丢失数据的恢复这三个应用问题,具体研究内容如下:1.针对音频信号的特征建模,本文对传统的一维、二维建模方式进行扩展,使用张量对音频信号的高阶特征建模,既体现了音频信号在不同属性子空间的物理意义,又保证了各子空间之间的联系,而且通过张量分解可以挖掘音频信号潜在的、本质的、具有区分度的结构信息。在无人车语音命令识别系统中构建一个帧结构、分解尺度、特征参数的三阶张量;在音频分类系统中,采用声学特征空间、感知特征空间和心理声学特征空间的不同属性构建三阶张量。通过使用张量建模和分解得到的音频特征集合,有利于提升音频识别和分类的正确率。2.针对音频分类这一模式识别问题,本文利用高阶子空间分析方法,创造性的使用非负张量分解技术进行音频分类。在有监督的音频分类训练时,把音频信号用非负张量模型表示,为了确保分解结果的唯一性,使用非负张量分解对每类音频信号分别进行学习,得到各类音频的非负核张量和因子矩阵;音频分类测试时,通过训练生成的非负因子矩阵把测试音频映射到各种类音频空间,通过Frobenius范数比较映射结果与训练时得到的各类音频核张量的相似度完成音频分类。与传统分类器相比,因为音频数据结构中的非线性关系并没有在非负张量分解过程中受到破坏,所以音频分类效果更好,可以更有效的实现音频数据库的分类标注。3.针对多声道音频信号丢失数据的恢复问题,本文把张量分解和张量补全技术首次引入到音频数据恢复中。张量分解方法是对有数据丢失的音频信号用三阶张量建模并分解,通过加权处理和交替迭代算法实现目标函数最小化;而张量补全方法主要通过定义张量的迹范数,利用凸松弛技术把秩函数最小化问题转化成迹范数最小化问题,即完成非凸优化到凸优化问题的转变,进而解决了非确定性多项式困难问题,利用基于块坐标下降算法的简单补全和基于交替方向乘子算法的精确补全完成多声道音频信号丢失数据的恢复。