论文部分内容阅读
随着网络技术和流媒体技术的发展,多媒体信息以爆炸的方式增长。多媒体人工标注成本昂贵且缺少有效的索引方法,大部分的多媒体只是简单的存储起来,对它们的进一步使用变得非常困难。目前只接受文本关键词作为检索条件的搜索引擎,已不能适应多媒体信息检索的要求。于是基于内容的多媒体检索技术成了发展的主流。人是社会的主体,任何事件,只有人参与其中,该事件才有存在的意义。按说话人检索是一种很有效的多媒体检索方式,例如特定人的演讲或表演。本文以说话人信息分析为研究对象,具体探索了说话人信息在说话人改变检测、新闻联播故事分割和多媒体检索中的关键说话人发现中的应用,主要贡献如下:(1)针对贝叶斯信息准则(BIC)说话人改变检测算法存在检测精度低、计算量大等问题,提出了一种改进的BIC说话人改变检测算法。该算法通过提高可测度来提高检测精度;通过限制分析窗内第一个数据窗的最大长度来降低计算量。实验结果表明,与传统的BIC说话人改变检测算法相比,偏移误差范围由0.1~0.5秒减少到0.03~0.2秒;分析窗长越大时,越节省计算时间(当分析窗长为40秒时,节省了约75%的计算时间)。(2)为了提高改进的BIC说话人改变检测算法的检测准确率,在分析MFCC特征性别差异的基础上,综合考虑性别信息和静音信息在说话人改变检测中的作用,提出了一种两步判决的说话人改变检测算法。第一步利用基频信息、性别模型进行说话人改变判决,第二步将男性和女性说话人分别对待,使用基于性别的改进T2距离公式对说话人改变进行判决。实验结果表明,与改进的BIC说话人改变检测算法相比,F1度量值提高了8.74%。对于短时长(小于2秒)语音段的说话人改变检测,在漏检率方面,比改进的BIC说话人改变检测算法减少了16%。(3)为了准确检测新闻联播的故事边界,在归纳新闻联播的结构、统计分析不同故事的类型特点和新闻标题的作用基础上,提出了一个基于音视频特征的三步判决的新闻联播故事分割方法。该方法将有主持人的和无主持人的新闻故事分别对待,采用不同的判决方法寻找故事的开始边界。实验结果表明,该方法对有主持人的新闻故事(通过检测主持人),比单独使用视频特征得到的准确率提高了6.92%(达到了95.66%),解决了单独使用视频特征无法去除误判的主持人问题;对无主持人的新闻故事边界检测方面,与只利用静音信息检测相比,误差范围由1.5~2.5秒降为0~0.5秒,解决了只使用静音信息检测开始边界容易丢失静音对应的视频帧的缺陷;故事分割的总准确率为93.12%。(4)为了发现多媒体检索中的关键说话人,基于说话人频率、说话人持续时间、平均每次说话人时长和说话人位置因子四个因素综合定义了说话人关键度,用以判断说话人的重要性,把每个故事中说话人关键度最大的人作为关键说话人。首先使用惩罚距离与GMM说话人超级矢量对说话人进行索引,然后寻找故事中的关键说话人。实验结果表明,使用惩罚距离与GMM说话人超级矢量得到的说话人索引准确率(SIA)为88.24%和说话人数量准确率(SNA)为90.17%;采用说话人关键度的方法可以找到95%的关键说话人。