【摘 要】
:
随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有重要的地位。原始音频数据是一
论文部分内容阅读
随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有重要的地位。原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在总结前人研究成果的基础上,研究了音频特征的分析与抽取、基于GMM的音频分类和基于SVM的音频分类问题。本文工作主要包括以下内容:(1)分析了语音和音乐的特征参数,并提取其相关特征。(2)分别使用GMM和SVM分类算法做为语音和音乐的分类器,并比较了这两种分类器的性能。(3)使用SVM分类器实现语音端点检测,并与基于能量和过零率的端点检测方法进行了比较。(4)给出了一种基于GMM统计特性参数和SVM结合使用的音频分类系统。该方法结合了GMM鲁棒性好和SVM分辨力好的优点,提高了系统的性能和鲁棒性。
其他文献
在蜂窝移动通信系统中,功率控制是最重要的系统要素之一。采用功率控制技术可以有效地克服“远近效应”和“角效应”的影响,抑制系统的干扰,改善通信质量。功率控制的目标就
随着网络技术的不断发展和Internet的日益普及,计算机网络的安全问题也变得越来越突出,多样化的入侵手段和应用环境使得网络更为脆弱,威胁日益增加。面对复杂网络环境中的各
无线传感器网络被广泛应用的同时,往往会受到传统的传感器-汇聚节点-基站结构的限制,特殊环境下汇聚节点不能布设,以至于网络无法适用。如何基于能量受限的传感器节点,建立与
图像跟踪是图像处理中的主要问题,也是一个经典难题。一直以来,很多研究人员就在这个领域中根据应用环境的不同建立了各种模型,但是始终没有一个通用且完美的跟踪算法。近些
近年来,受到广泛研究的透明氟氧化物微晶玻璃是由氟化物纳米微晶嵌入到氧化物玻璃基质中形成的,是一种新型的微晶玻璃,在很多领域被广泛应用,比如:可以作为装饰材料应用于生
随着计算机在各行各业应用的深入和普及,围绕系统安全的研究也成为信息安全领域最热门的研究方向之一。“攻”与“防”是永久不变的话题,两者互补使得技术不断更新发展。木马
近年来,随着数字技术的迅猛发展,数字图像、音频和视频等多媒体产品得到日益广泛的普及和应用,显著地提高了信息传播的效率和准确度。计算机网络技术的发展,进一步简化了信息
血管内光学相干断层成像(intravascular optical coherence tomography,IV-OCT)是诊断血管病变,特别是冠状动脉疾病的新型介入影像技术。冠状动脉内OCT图像序列中存在一种特
VOIP(Voice Over IP)是一种新的、综合了计算机网络和传统电信网络特点的语音通信技术。该技术通过对语音数据的处理,借助于分组交换网完成语音通信。相对于传统语音通信技术