面向新闻视频检索的音频分类算法

来源 :天津大学 | 被引量 : 0次 | 上传用户:lin2009888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于内容的音频信号分析处理在多媒体信息处理中占有很重要的地位,它要求区分不同的音频类别并对其进行不同的处理,而这些在很大程度上都依赖于音频自动分类技术的发展。音频分类技术是音频深度处理和音频结构化的基础,是基于内容的音视频检索、辅助视频分析等应用的关键,在视频自动处理系统和其他多媒体应用系统中有着广泛的应用。本文在认真总结前人研究成果的基础上,深入考察了新闻音频信息的语义内容,对层次化音频结构框架进行分析,并对不同层次的音频结构单元做出定义。基于音频信息的内容和结构特点,确定了新闻音频中主要的音频类型:静音、纯音乐、男主持人语音、女主持人语音、现场报道和男女主持人对话六类,并针对音频特征分析与抽取、音频分类和基于Divergence Shape距离的语音聚类等三个方面的问题提出相应得解决方案。首先从帧层次上和片段层次上深入研究了不同类别音频之间的特征,并针对上述提出的六种音频类别,提出了静音比例、过零率标准偏差、中心频率标准偏差、基音频率标准偏差和美尔倒频谱系数&一阶差分美尔倒频谱系数五类片段特征作为音频分类器的输入,通过实验验证了抽取的特征集在本文提出的分类器中的分类性能。其次,本文根据模式识别理论设计了音频分类的技术流程,并对其中所涉及到的关键技术进行了探讨。着重对隐马尔科夫分类器进行了深入地研究,并根据新闻音频类别的特点,提出一种基于规则和基于隐马尔科夫的音频分层分类算法,通过实验分析了该算法的分类性能。最后,为了对不同说话人的语义内容进行更深入地理解,本文在分类结果的基础上,提出了基于Divergence Shape距离的聚类方法,尝试对主持人的语音进行跟踪聚类,通过实验较好的聚类了不同主持人的语音。
其他文献
随着个人电脑和因特网的普及,数码相机正逐渐成为人们快速获取图像和计算机图像信息输入的常用设备。人眼所能观察到的实际场景有着非常大的明暗动态范围,光强细节信息很丰富
一直以来,在视频编码处理方案中,视频处理性能的提升或者限制都主要集中在硬件处理性能与视频处理算法两个方面。可以说,视频处理平台的性能与视频算法的算法处理能力决定了
期刊
随着知识经济时代的来临,教育事业的优先战略地位已不可撼动。E-learning作为新型的教育方式,把互联网所具有的随时随地提供信息服务和交流沟通的能力与人们对教育服务的巨大
粒子群优化算法(Particle Swarm Optimization, PSO)作为一种群智能优化算法,源于鸟类觅食行为,是一种连续迭代的优化工具。它具有结构简单、便于实现等特点,被广泛的应用于
随着网络技术的发展,网络的规模和网络元素的复杂度越来越大。为了保证网络整体的运行效率和性能,必须对网络进行管理。一个功能完整、结构灵活的网络管理系统是网络整体性能
随着我国TETRA数字集群通信系统的发展,TETRA数字集群终端的需求量将不断地增加。目前,国内所使用的TETRA数字集群终端均为国外生产,且价格较昂贵,超出了一般用户可承受的能力。
近年来,由于人们对于信息交流的更高要求,移动无线通信领域发展十分迅速。干扰作为影响无线通信系统性能和用户吞吐量的重要因素,一直是研究的热点问题。干扰对齐技术是研究
IEEE802.11n是下一代无线局域网的标准,高吞吐量是该标准的主要特点。为了克服原有MAC层协议开销过大造成的吞吐量受限,IEEE802.11工作组增加了新的MAC层协议。本文从数据包聚
语音组呼是GSM-R网络的特色业务功能之一,正是它的存在使得GSM-R网络在铁路调度应用方面具有巨大的优势。语音组呼功能能否正常运用直接关系到GSM-R优势的发挥,因此对于语音