基于BIC的音频分割与聚类技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:happy1072298534go
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基于内容音频检索技术的发展和应用,如何提取和分析音频的语义内容和结构化信息,是音频信息深度分析、处理以及音频应用的关键,而音频分割和聚类技术是音频结构化的基础,是解决该问题的关键技术。   连续音频信号流从一种音频信号转变到另一种音频信号时,某些听觉特征会发生变化,前后差异较大。音频分割就是利用这种差异性,在变换的地方进行切分,把连续的音频流分割成长短不一的音频单元。待分割算法检测出改变点后,得到若干个音频段。由于事先并不知道这些音频段中包含了多少个说话人以及多少个音频类,因此我们需要对这些音频段进行无监督的聚类。本文主要对小波域音频特征、基于BIC的音频分割算法以及基于可变带宽的Mean Shift音频聚类算法进行了研究。主要工作如下:   首先,利用多分辨分析的优势,给出了基于小波域的音频特征。该方法以小波变换为理论基础,分析了基于帧的音频特征和基于音频段的音频特征,较好的解决了基于时域和基于频域的特征无法描述信号时频局部性质的不足。为后续的音频聚类技术打下基础。   然后针对目前BIC(Bayesian Information Criterion)音频分割算法中冗余分割点过多,导致准确率及召回率下降的问题,本文提出了改进的BIC分割算法。该方法首先采用固定窗口BIC方法检测出潜在的候选分割点,然后通过BIC对这些潜在分割点区域进行检验,检测出真实分割点或固定窗法漏检的分割点。实验结果表明,该方法与传统的BIC算法和目前一些基于BIC的改进算法相比,大大提高了其准确率,召回率及综合性能。   最后鉴于固定带宽Mean Shift算法中带宽参数这一影响因子,提出了一种自适应带宽的Mean Shift音频聚类算法。该方法首先对需要聚类的音频段提取小波域特征,并采用PCA变换来消除音频特征间的相关性和冗余信息;然后采用自适应带宽的Mean Shift算法对音频段进行聚类;最后输出聚类结果。实验结果表明,本文选取的小波域音频特征比较好的表示了音频的语义信息,且该算法与固定带宽的MeanShift算法相比,提高了聚类的精度,使聚类更细化。
其他文献
软件无线电是将模块化、标准化的硬件单元以总线方式连接构成的基本平台,并通过软件加载实现各种无线通信功能的一种开放式体系结构。但由于在功能的实现上受A/D芯片,D/A芯片的
在各种嵌入式操作系统当中,Linux系统由于具有良好的开源性,可移植、可裁剪以及安全稳定和强大的网络功能等优点,使得Linux系统在嵌入式领域取得了巨大的发展。但是,Linux是一种
微粒群是一种模拟动群体物行为的智能优化算法,同时它也可以模拟人类的社会行为,至今很少有人从人类社会方面来研究微粒群算法。因此本文引入人工社会的思想和个体决策的理论
智能视频监控是当前世界上机器视觉研究领域中的一个热点,它结合人工智能、计算机图形学、模式识别等研究领域的成果,自动地解析视频监控设备采集的视频流,为监控者抽取和提供关
传统的密码学协议大多基于难解性问题假设,如大数分解问题以及离散对数问题等。建立在这些问题上的安全性,我们称之为计算安全性。这意味着,当协议破坏者具有无限的计算资源
自上世纪80年代以来,内存数据库相关技术飞速发展并且得到了越来越多的研究和关注。目前应用程序的规模和复杂度不断增加,尤其是大量Web应用的产生和发展,应用系统对于为其提
随着多媒体技术的发展,人们对视频图像的分辨率提出了更高的要求。高分辨率图像能提供目标物体的更多细节信息,这对于图像的分析和处理有重要作用。然而,传感器的物理限制及
随着三维建模技术、三维扫描技术的发展,数字世界的三维模型呈海量增长,从如此多的三维模型中获取有用的信息,搜索引擎是必要的工具。基于文本的方式在描述三维模型及检索上
分数阶微分理论用于图像处理是一个新的研究方向。分数阶微分对图像高频信号的强化作用相对整数阶微分要缓和得多,但对信号的低频、甚低频部分则会非线性的保留。因此,将分数阶
核方法是机器学习领域中解决非线性学习问题的一种有效方法,大都要求核函数正定,然而,在实际问题中这样的要求常常很难满足;相反,在某些情况下,使用不定核往往能取得比正定核