说话人信息分析及其在多媒体检索中的应用研究

被引量 : 0次 | 上传用户：tentworth789

【摘要】

：

随着网络技术和流媒体技术的发展,多媒体信息以爆炸的方式增长。多媒体人工标注成本昂贵且缺少有效的索引方法,大部分的多媒体只是简单的存储起来,对它们的进一步使用变得非

【作者】

：

杨继臣

【发表日期】

：

2010年期

【关键词】

：

说话人信息分析说话人改变检测新闻联播故事分割多媒体检索关键说话人

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术和流媒体技术的发展,多媒体信息以爆炸的方式增长。多媒体人工标注成本昂贵且缺少有效的索引方法,大部分的多媒体只是简单的存储起来,对它们的进一步使用变得非常困难。目前只接受文本关键词作为检索条件的搜索引擎,已不能适应多媒体信息检索的要求。于是基于内容的多媒体检索技术成了发展的主流。人是社会的主体,任何事件,只有人参与其中,该事件才有存在的意义。按说话人检索是一种很有效的多媒体检索方式,例如特定人的演讲或表演。本文以说话人信息分析为研究对象,具体探索了说话人信息在说话人改变检测、新闻联播故事分割和多媒体检索中的关键说话人发现中的应用,主要贡献如下:(1)针对贝叶斯信息准则(BIC)说话人改变检测算法存在检测精度低、计算量大等问题,提出了一种改进的BIC说话人改变检测算法。该算法通过提高可测度来提高检测精度;通过限制分析窗内第一个数据窗的最大长度来降低计算量。实验结果表明,与传统的BIC说话人改变检测算法相比,偏移误差范围由0.1～0.5秒减少到0.03～0.2秒;分析窗长越大时,越节省计算时间(当分析窗长为40秒时,节省了约75%的计算时间)。(2)为了提高改进的BIC说话人改变检测算法的检测准确率,在分析MFCC特征性别差异的基础上,综合考虑性别信息和静音信息在说话人改变检测中的作用,提出了一种两步判决的说话人改变检测算法。第一步利用基频信息、性别模型进行说话人改变判决,第二步将男性和女性说话人分别对待,使用基于性别的改进T2距离公式对说话人改变进行判决。实验结果表明,与改进的BIC说话人改变检测算法相比,F1度量值提高了8.74%。对于短时长(小于2秒)语音段的说话人改变检测,在漏检率方面,比改进的BIC说话人改变检测算法减少了16%。(3)为了准确检测新闻联播的故事边界,在归纳新闻联播的结构、统计分析不同故事的类型特点和新闻标题的作用基础上,提出了一个基于音视频特征的三步判决的新闻联播故事分割方法。该方法将有主持人的和无主持人的新闻故事分别对待,采用不同的判决方法寻找故事的开始边界。实验结果表明,该方法对有主持人的新闻故事(通过检测主持人),比单独使用视频特征得到的准确率提高了6.92%(达到了95.66%),解决了单独使用视频特征无法去除误判的主持人问题;对无主持人的新闻故事边界检测方面,与只利用静音信息检测相比,误差范围由1.5～2.5秒降为0～0.5秒,解决了只使用静音信息检测开始边界容易丢失静音对应的视频帧的缺陷;故事分割的总准确率为93.12%。(4)为了发现多媒体检索中的关键说话人,基于说话人频率、说话人持续时间、平均每次说话人时长和说话人位置因子四个因素综合定义了说话人关键度,用以判断说话人的重要性,把每个故事中说话人关键度最大的人作为关键说话人。首先使用惩罚距离与GMM说话人超级矢量对说话人进行索引,然后寻找故事中的关键说话人。实验结果表明,使用惩罚距离与GMM说话人超级矢量得到的说话人索引准确率(SIA)为88.24%和说话人数量准确率(SNA)为90.17%;采用说话人关键度的方法可以找到95%的关键说话人。

其他文献

法制之外的普法——从革命文学中的司法叙事切入

对革命文学中的司法叙事进行考察,可以发现文学曾经长期发挥着社会治理的重要作用,而"作为文学的法律"的普及与今天的普法,有着共同的特点。两种普法的不同效果,表明普法与法

期刊

法律与文学普法法律权威合法性

课程走向自组织——后现代课程理论之复杂性解读

探讨课程范式与科学范式的关系,从复杂性视角解读后现代课程的主要思想,讨论了后现代课程的基本走向———自组织。

期刊

后现代课程自组织复杂性

多层升降平移式立体车库监控系统

介绍升降平移式立体车库电气结构、监控系统的功能和系统动态程序分析。系统采用工控计算机、可编程控制器和现场操作单元组成 ,以多任务方式完成车辆存取和调度管理

期刊

立体车库升降平移监控系统

树状供水管网水力过渡过程研究

经济的飞速发展,使得许多城市的用水量迅速增加,好的水源地却比较少,于是近几年出现的长距离供水工程越来越多。该类工程具有管径较大,流量较大,距离较远,分支较多的特点。不

学位

树状供水管网多分支大伙房供水水锤VC++

面向CAD/CAPP/CAM集成的STEP-NC数控系统研究

数控技术诞生50多年来,已经取得了很大的发展。传统的数控程序是基于ISO 6983标准,即采用G&M代码描述如何加工,其本质是面向过程的,传递到CNC的数控程序丢失了高层信息,如被

学位

STEP-NCCAD/CAPP/CNC程序生成刀具轨迹STEP-NC数控系统

行业协会参与地方高等商科院校人才培养的模式构建研究

毫无疑问,自1999年开始实行扩招政策以来,我国高等教育的结构和规模都发生了巨大变化,高等教育已经向大众化和多元化方向发展。与此同时,劳动力资源的有效培养和转化对中国企

学位

行业协会地方高等商科院校人才培养模式

基于粒子群算法的特征基因选择方法研究

特征基因选择在肿瘤识别问题中起着关键作用。通过特征基因选择,不仅能够剔除与疾病无关的基因,降低机器学习算法的时间和空间复杂度,避免“维灾难”,提高分类的预测精度；同时

学位

基因表达谱特征基因选择粒子群算法遗传粒子群免疫疫苗机制二进制量子粒子群支持向量机

证券公司破产法律问题研究

证券公司对于促进证券市场的运转发挥了重要的作用。证券公司的破产,从宏观来看关乎到一国证券市场的稳定,从微观来讲与众多投资者的利益密切相关。近年来,国内外多家证券公

学位

证券公司破产投资者保护

猪场贫血的预防措施

猪场贫血应该是一个冷门的话题，但是相对于猪的蓝耳病、伪狂犬病来说，贫血在每个猪场都会存在，只是重视度不够。它的普遍性远远要高于蓝耳病和伪狂犬病。

期刊

伪狂犬病育肥猪新生仔猪保育猪预防措施

基于OpenGL的数控车床仿真系统的研究

数控仿真是目前机械加工行业新兴的一门技术,它是数控加工过程在虚拟环境中的映射,它能有效的应用于检验NC程序的正确性和数控人才的培养。一套完善的数控仿真系统可以模拟强

学位

数控加工虚拟仿真几何建模OpenGL

说话人信息分析及其在多媒体检索中的应用研究

与本文相关的学术论文