基于内容的音频检索研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chairsszj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音媒体是除视觉媒体外最重要的媒体,随着可利用的多媒体资源迅速增加,如何对其进行有效的查找,已成为多媒体与信息检索技术一个重要的研究课题。在基于内容的音频检索技术中,最基本的是对音频的特征进行提取,不同的特征对音频分类和检索的准确性产生不同的效果。除特征的选择外,搜索匹配的方法也会影响检索的准确性。在音频分类方面,为了有效地区分人发出的声音和含乐器音乐背景的声音,引入了低幅度信号率这一特征;为区分语音和哼唱,引入了总体波形散乱度这一特征。低幅度信号率是指在非静音区域信号幅度较低的采样点所占的比例,实验测试显示,人发出的声音低幅度信号所占的比例通常比较高,而含乐器音乐背景的声音低幅度信号所占的比例通常较低。总体波形散乱度是声音的时域波形图形的散乱程度,语音的总体波形较哼唱散乱,找到一个合适的衡量波形散乱度的方法就能够在一定程度上区分语音和哼唱。在音频检索方面,主要研究了哼唱乐曲检索和音频例子检索技术。哼唱乐曲检索的特征提取从音频帧的频率分析着眼,结合各类型声音的特点,对哼调和口哨曲调的音频主要根据音频帧最大响度音符跳跃程度进行音符切分和提取,对清唱曲调的音频主要根据突出频带的跳跃程度进行音符切分和提取,并在搜索匹配中根据不同音符所占比例及偏差程度进行相似度衡量。在音频例子检索中,利用小波变换对Mel倒谱系数提取中的频带划分和系数选取做了改进,并对分段搜索时序性要求进行了分析,给出了判定是否符合时序性要求的计算方法。
其他文献
人类已经进入信息社会,对各种各样信息的需求与日俱增。移动计算环境为人们随时随地访问信息提供了可能,是未来计算环境中重要的组成部分。随着移动设备的普及以及移动基础设施
H.264标准是当前国际上最新、压缩效率最高的图像编码标准,其在视频存储、无线通信等领域有广泛的应用。镜头边界检测是很多视频应用中的一个重要技术,近年来国内外学者对此
人工智能的迅速发展促使人们关注人脑思维功能并积极开发概括性的心智模型。如果能恰当地表示人类思维特征和推理方面的信息,以及开发相应算法去模拟人类思维,则对智能概念和功
从移动数据业务发展的历程来看,越是使用简单方便的业务,越会受到终端用户的青睐。为了消除终端用户浏览、下载过程中繁琐的寻找过程,运营商为终端用户提供了一个统一的接入门户
无线传感器网络(WSN, Wireless Sensor Network)是综合传感器技术、嵌入式计算技术、分布式信息技术及无线通信技术的新型网络,它实时监测、感知和采集网络分布区域内各种监
随着多媒体技术的迅速发展,高质量视频的快速传输和共享成为当前的迫切需求。高清视频所广泛采用的H.264编码具有质量高码率低的优点,但是其编码复杂度却大大增加,在保证图像
在这个信息技术飞速发展的时代,信息数量急剧的膨胀,同时信息的组织形式和维度变的越来越复杂,发现信息中的规律显得越来越困难。作为信息分析技术的一个重要方面,信息可视化
随着多媒体产业、图形可视化方面及硬件技术的快速发展,利用虚拟现实技术(Virtual Reality)可以重现真实世界场景,同时也能够使用户从多层次、多方位来浏览仿真效果。本课题
学位
运动目标特征点检测提取,即从一组二维图像序列中,进行某个运动目标的特征点的检测提取,并且将所有图像序列中目标特征点串连起来。最后,每帧运动目标特征点匹配对应构成一个
由于IT行业的迅速发展,计算机使用的普及,以及各种设备的联网,IPv4协议提供的IP地址已经面临枯竭,按照现今的网络发展速度,在未来的10年左右IP地址将使用耗尽。虽然人们想出