应用于视频内容分析的话者辨识系统

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:wang_hua1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体、互联网、大容量存储等技术的不断发展,数字化视频开始进入人们的日常生活。为发挥海量视频数据的资源共享优势,支持视频非线性编辑、语义理解和高效检索,完善和发展视频内容分析技术迫在眉睫。经过早期基于图像信息的研究,越来越多的研究者发现由于机器视觉和模式识别的发展限制,自动提取视频的语义是比较困难的。音频作为视频文档中包含的另外一种类型时间媒体,是一种可为视觉信息提供重要补充的信息源。音频流所包含的语义信息往往比图像流丰富,提取语义信息也更加直观方便。因此,基于音频的视频内容分析技术,近年来已逐渐成为基于内容多媒体检索和过滤研究的热点。本文提出了一种应用于视频内容分析的话者辨识系统。相对于通用的话者辨识系统,论文研究考虑以下几点:首先,从视频数据中提取的音频流中不仅包含静音和语音,还包括音乐和背景音;其次,视频内容中的话者数目无法预先得知,系统也无法直接获得用来训练话者模型的纯净的话者数据;最后,视频内容中大量存在的各种噪声将加剧训练数据和测试数据的失配,严重影响话者辨识系统的性能。基于上述实际系统中的考虑,本文提出的应用于视频内容分析的话者辨识系统架构主要包括:基于规则和支持向量机的音频分类与分割;基于谱聚类的话者聚类和基于高斯混合模型的话者辨识;基于谱减法的语音增强。围绕应用于视频内容分析的话者辨识系统,本文的主要工作包括:(1)本文对话者辨识的原理和算法进行了深入的研究和分析,实现了基于高斯混合模型的话者辨识,验证了该方法在应用于视频内容分析的话者辨识系统中的有效性。(2)SVM是建立在VC维,泛化性能和推广能力之上的一种理论,对SVM中的相关概念(支持向量、核函数等)进行了介绍。根据本文中实际系统的考虑,提出并实现了基于三个支持向量机的分类器架构,验证了该架构的可用性。(3)本文对语音增强的原理和算法进行了分析和比较,实现了谱减法在应用于视频内容分析的话者辨识系统中的应用,验证了方法的可用性。实验数据来源于新闻视频、访谈视频和电影视频。实验结论证明了本文提出系统的有效性。
其他文献
人脸表情识别是近几十年来才逐渐发展起来的一个科研热点,指利用计算机分析特定人的脸部表情及变化,进而确定其内心情绪或思想活动,实现人机之间更自然更智能化的交互。它在
随着移动通信在全世界日益普及,对于通信容量和质量提出了更高的要求。基站设备是移动通信重要组成部分,在通信中起着至关重要的作用。而环行器(隔离器)又是基站设备中的关键器
变压器是电力行业最重要的设备之一,随着变压器的长期运行,由于各种因素会使变压器油中产生水分及其他杂质,这样将会大大降低变压器油的绝缘性能,甚至导致事故的发生。为了避免变
燃气调压器是城市燃气输配系统的重要设备之一,燃气调压是实现优质高效地利用天然气资源的关键环节。既快速又尽可能精确地获取进出口压力值,是为后续压力调节提供精确原始数
当今能源问题的日益凸显,对石油物探的要求不断提高。物探地震传感器数据采集与分析是当今有效而重要的石油勘探技术,且地震传感器布设覆盖范围和密度不断增加已成为提高石油探
超宽带(UWB)是一种以较低的能量来发送高速数据的技术。与其它无线通信技术相比,UWB具有传输速率高、系统容量大、抗多径能力强;功耗低和成本低等优势。特别是它不需要占用额外
本文主要围绕高阶统计量在水下目标的回波特性提取的应用。 文中首先介绍了水下目标识别研究的历史和现状,研究了利用高阶统计量理论研究弹性目标的散射回波特性的方法。然
文章首先对旅游产业集聚的内涵进行探讨,在此基础上将测算旅游产业集聚评价指标进行筛选和整合。文章的核心部分是以湖北省旅游业为例,使用区位商综合评价指标和旅游产业集聚
电视舞台灯光设计是把舞台灯光艺术和现代科学技术进行了高度的结合,将舞台的灯光效果通过摄像机的摄像传达给观众,为观众提供良好的视觉享受,因此,作为一个电视舞台灯光设计
红外小弱目标的检测与跟踪技术被广泛应用于红外制导和预警、视频监控、医学探测等领域。研究在低信噪比条件下的红外小弱目标跟踪的新方法具有重要的军事和社会价值。近年来