论文部分内容阅读
基于内容的音频信号分析处理在多媒体信息处理中占有很重要的地位,它要求区分不同的音频类别并对其进行不同的处理,而这些在很大程度上都依赖于音频自动分类技术的发展。音频分类技术是音频深度处理和音频结构化的基础,是基于内容的音视频检索、辅助视频分析等应用的关键,在视频自动处理系统和其他多媒体应用系统中有着广泛的应用。本文在认真总结前人研究成果的基础上,深入考察了新闻音频信息的语义内容,对层次化音频结构框架进行分析,并对不同层次的音频结构单元做出定义。基于音频信息的内容和结构特点,确定了新闻音频中主要的音频类型:静音、纯音乐、男主持人语音、女主持人语音、现场报道和男女主持人对话六类,并针对音频特征分析与抽取、音频分类和基于Divergence Shape距离的语音聚类等三个方面的问题提出相应得解决方案。首先从帧层次上和片段层次上深入研究了不同类别音频之间的特征,并针对上述提出的六种音频类别,提出了静音比例、过零率标准偏差、中心频率标准偏差、基音频率标准偏差和美尔倒频谱系数&一阶差分美尔倒频谱系数五类片段特征作为音频分类器的输入,通过实验验证了抽取的特征集在本文提出的分类器中的分类性能。其次,本文根据模式识别理论设计了音频分类的技术流程,并对其中所涉及到的关键技术进行了探讨。着重对隐马尔科夫分类器进行了深入地研究,并根据新闻音频类别的特点,提出一种基于规则和基于隐马尔科夫的音频分层分类算法,通过实验分析了该算法的分类性能。最后,为了对不同说话人的语义内容进行更深入地理解,本文在分类结果的基础上,提出了基于Divergence Shape距离的聚类方法,尝试对主持人的语音进行跟踪聚类,通过实验较好的聚类了不同主持人的语音。