基于内容的音频信息检索技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:snwkq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术、多媒体技术和网络技术的迅速发展,多媒体信息的数据量急剧增多。为了充分利用已有的音频信息资源,基于内容的音频信息检索技术受到越来越多的关注。音频数据的存在形式有静态与动态之分,在检索层次上也有表示级检索和语义级检索之分。音频数据的形态不同、检索层次不同,需要的检索方法也不同。尽管相关的研究很多,但音频检索技术仍然存在大量问题亟需解决。主要问题有:大多数检索算法在有噪声的情况下检索性能明显下降;音频数据维数高且具有时序性,构建索引非常困难;缺少针对动态音频检索的研究;音频形式的音乐由于获取语义信息困难,语义级检索的研究难度大、进展缓慢。从整体来看,音频检索技术尚处于实验探索阶段,缺少实用化的技术与系统。本文针对音频检索技术存在的问题,在以下方面对音频检索技术开展了研究工作:1、针对表示级的静态音频检索问题,提出了基于响度主分量特征的模糊直方图音频检索方法。在直方图模型设计中,根据响度数据的统计分布对直方图模型进行优化。并采用模糊直方图进一步提高直方图模型对噪声和响度数值扰动的鲁棒性。在检索时,利用活动搜索算法提高检索速度。实验结果表明,该方法具有较好的噪声鲁棒性(Robustness)。2、针对表示级的静态音频索引问题,提出了基于响度主分量模糊直方图的索引方法。采用响度主分量模糊直方图表示音频数据后,长度不同的两段音频数据,只要长度倍数不超过一定限度,其直方图相似度均能正确反映二者之间的包含关系。根据这一特点,提出了二叉树与链表相结合的索引方法。在检索过程中,根据检索目标的长度及长度倍数上限值在索引中选择合适的搜索层次范围。实验结果表明,该索引可大幅度地提高检索速度。3、针对表示级的动态音频检索问题,提出了基于分段的实时音频检索方法。该方法将检索目标划分为片段序列,并使用检索窗控制参与检索的片段。研究了算法中灵活的目标检出判别标准、快速检索控制策略、检索反应滞后时间估计数学模型、基于音频分类的多目标快速检索方法等问题。实验结果表明,该方法的速度快、可控性好、检索反应延迟小、对检索目标发生部分残缺以及噪声均具有较好的鲁棒性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
变化性是软件的基本属性。特别是在Intemet成为主流软件运行环境之后,网络的开放性和动态性使得客户需求与硬件资源更加频繁地变化,导致软件的变化性和复杂性进一步增强。软
做休闲农业要想申报到更多扶持资金,就必须结合休闲农业园区内的产业优势来分析能够拿到观光采摘类休闲农业、观光与科普一体的休闲农业、休闲农业与乡村旅游示范点创建项目
艺术来源于生活而又高于生活,而文化的形成也源于生活的积淀,中华民族的传统文化更是经过五千年的积淀而形成的,是最具内涵的结晶品。世界上的艺术多种多样,当代中国的艺术要