论文部分内容阅读
标引的目的是通过给音频-视频数据加入标记,对其内容进行描述,以便于信息的检索和查询。语音标引在媒体资产管理中扮演了很重要的角色。本文介绍了一种基于语音识别的多媒体场景标记辅助系统,该系统可自动识别标引员所说的短语,辅助标引员在视频媒体上实现标引。系统从语句中将这些短语分割出来,通过EBF神经网络进行建模。实验结果证明,该系统性能良好且具有实用性,在媒体资产管理方面有广阔的应用前景。
本文主要内容是基于语音关键词识别技术的语音标引系统的研究与实现,提供了一个性能优良的语音识别引擎,通过系统测试,标引正确率达到91.3%。并以此引擎为基础,开发了面向广电体育节目编辑系统的语音标引平台。本文的工作主要集中在以下几个方面:
第一,基于神经网络语言模型的识别网络构建。挑选出体育足球节目常用的一些关键词语构建一个与该关键词唯一对应的识别网络,在此识别网络的基础上进行关键词的识别。
第二,将自适应加权融合算法应用于最后标引系统输出决策。对于用不同特征得到的识别结果,采用自适应加权融合的算法进行融合,经过此步骤处理的决策系统可以显著提高标引结果的正确率。
第三,语音标引系统的实现。本文从系统设计到实现,提供了一个高扩展性能的语音识别引擎,它是针对汉语特定人关键词语音检索应用而开发的,能实现一个面向体育节目的语音检索平台,能够检索包含指定汉语关键词的WAVE格式文件,实验证明通过使用以上方法,系统能够获得良好的性能。