论文部分内容阅读
近几年来,随着多媒体技术以及网络技术的迅速发展,网络上的信息资源日益丰富,并且以图像信息和音频信息等多媒体信息为主。最近,多媒体信息越来越趋向多元化和综合化。以前,网络上传送的信息只有单纯的文本、图像和声音等信息,但是随着flash等多媒体流的出现,声音和图像开始出现整合,音频信息和视觉信息综合化也成为趋势,因而音频信息转化成视觉信息就成为迫切需求。本文针对音频信号,提取基于内容的音频特征参数,实现一个实时动画的系统,包括音频特征参数提取、动画对象选取、动画动作映射等模块。用户只需要选择音乐,选择要显示的动画对象及其对应的动作,便可以欣赏到音乐的可视化效果,体验音乐的听觉场景到视觉场景的转换。音频特征参数提取模块,实现的是基于内容的音频特征参数的提取。音频特征参数的提取可分为在时域、频域和时频域的提取。连续的音频信号经过采样后,得到采样点。在音频时域特征提取中,每个采样点包含了这一时刻音频信号的所有信息,所以对其直接提取音频特征,不需要做任何进一步处理。音频的时域特征提取包括短时平均能量、过零率等。一般来说,语音或音乐信号中或多或少含有一些环境噪声。在时域范围是很难分离出这些噪声的,而在频域范围,通过分析信号的频谱组成,很容易提取出主要的音频信息。所谓频域特征提取,就是将音频信号先进行傅立叶变换,分析出组成该音频信号的不同频率和不同幅值的谐波,对这些谐波进行特征系数的提取,可提取的频域特征有:能量谱、倒谱特征等。在现实生活中,某些音频信号具有很强的时变特性,在某一段时间内表现出周期信号的特性,而在另一个时间段表现出噪音特性。对于这些时变剧烈的音频信号,不能仅从时域分析,也不能仅从频域分析,因为傅立叶变换只顾及全局特性,而牺牲局部特性,因而采用在时频域提取音频特征参数。本论文在音频特征参数提取的具体算法中,采用VC++和Matlab混合编程的方式。最终提取的参数包括短时平均能量、短时过零率、短时频谱能量及短时倒谱值等。动画对象模块,实现的是动画对象的构造和选取。本论文动画对象采用矢量图和位图两种。矢量图由OpenGL绘制。OpenGL具有超强的图形绘制能力,包括绘制物体、启动光照、管理位图、纹理映射、动画、图像增强以及交互技术等功能。作为图形硬件的软件接口,OpenGL主要是将三维的物体投影到一个二维平面上,之后处理得到像素进行显示。位图图像(bitmap),是由称作像素(图片元素)的单个点组成的。这些点可以进行不同的排列和染色以构成图样。图像动画有两种处理方法,一种是对图像像素进行点操作,通过对各个像素的处理,实现图像的颜色、位置、形状的变化。但是这种方法计算量大,导致运算速度减慢,不能实现实时动画操作,因而采用另一种方法,即OpenGL图像纹理贴图和映射。实验结果表明,本文能够实现音频特征参数的提取,同时用提取出来的参数控制动画对象,实现声音内容特征控制的动画。最后总结了本文的工作,并提出进一步的研究探索方向。