基于多流多状态动态贝叶斯网络的音视频连续语音识别

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户：nn2268006

【摘要】

：

语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用

【作者】

：

吕国云蒋冬梅张艳宁赵荣椿 H Sahli Ilse Ravyse W Verhelst

【机构】

：

西北工业大学计算机学院,布鲁塞尔自由大学电子与信息处理系,

【出处】

：

电子与信息学报

【发表日期】

：

2008年12期

【关键词】

：

语音识别动态贝叶斯网络音视频多流异步

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。 Asynchronism of speech and lip motion is the key issue of multimodal fusion speech recognition. This paper first introduces a multi-stream asynchronous dynamic Bayesian Network (MS-ADBN) model, which describes the audio stream and video at the word level Asynchronous flow, audio and video streams have adopted the word - phoneme hierarchy. However, the multi-stream multi-state asynchronous DBN (MM-ADBN) model is an extension of the MS-ADBN model, and the audio-video stream adopts the hierarchy of word-phoneme-states. In essence, MS-ADBN is a whole word model, while MM-ADBN model is a phoneme model, suitable for large vocabulary continuous speech recognition. The experimental results show that MM-ADBN improves the recognition rate of MS-ADBN model and multi-stream HMM by 35.91% and 9.97% respectively in the pure voice environment based on the continuous audio and video database.

其他文献

妇科栓剂问题多消费者购买需谨慎

<正> 今年10月下旬记者接到投诉,反映在辽宁省沈阳市的'辽宁成大方圆医药连锁有限公司'(以下简称:成大方圆)所属的多家药店中出售不合格的妇科栓剂,其标明的品牌为&#

期刊

妇科栓剂消费者购买医药连锁《药品管理法》保健用品批准文号

海军飞行员运动心肺功能评估及体重指数对其影响分析

目的：研究海军飞行员运动心肺功能的特点,分析体重指数（ BMI）对海军飞行员运动心肺功能的影响。方法对30名海军飞行员（海军飞行员组）和15名普通健康男性（健康男性对照组）进行运动心

期刊

运动心肺功能检查体重指数飞行员体重控制

1992-2005年广东省区域经济增长与差距的变化分析

本文采用基于新古典模型导出的增长方程，利用广东省21个城市1992—2005年的面板数据进行分析。本文发现：（1）广东区域经济的差距集中体现在珠三角地区与其他地区的差距，珠三角的经

期刊

区域经济经济增长区域差距

产蛋后期母鸡脂肪沉积量与繁殖性能相关性研究

旨在探究脂肪沉积量对产蛋后期繁殖性能的影响,为提高种鸡繁殖效率提供基础。选择65只43周龄健康北京油鸡,测定43~65周龄产蛋数,分别在53和63周龄进行孵化性能和蛋品质的测定

期刊

北京油鸡脂肪沉积繁殖性能产蛋数蛋品质

科技创新助产业发展质量保障塑西充品牌

四川省西充县历史悠久，地灵人杰，生态良好。2008年以来，该县确立了建设“生态经济强县”的发展战略，着力打造国家级生态示范县、中国西部有机食品第一县、中国西部文化名县、国家

报纸

建设体育强国有你有我

近日，国务院办公厅印发《体育强国建设纲要》，指明体育在建设社会主义现代化强国新征程中的重要作用，擘画出新时代体育强国建设的蓝图。$$《体育强国建设纲要》中通过“三步走”

报纸

叙事在景观设计中的应用

以苏州石路文化公园景观设计为例,根据石路的历史文化及历史事件,确定了石路文化公园景观规划设计的理念,从空间结构与分区、情节设置等方面,阐述了叙事性手段在景观情节设计

期刊

公园景观规划叙事手法纪念性

园林景观要素在农业科技园区的应用

农业科技园区作为快速发展的现代农业园，其具有区别于一般综合性公园的景观特征，通过对各景观特征的分析，得出地形、植物、建筑、道路、小品等景观要素在农业科技园区内的具体表

期刊

农业科技园区景观要素景观特性

为民企优化公平竞争的市场环境

12月22日，《中共中央关于营造更好发展环境支持民营企业改革发展的意见》(下称《意见》)对外发布，《意见》提出多项具体措施支持民企改革发展，其中，优化公平竞争的市场环境被放在

报纸

留数法在Z反变换中的应用

本文研究了留数法求解Z反变换的基本原理，系统地讨论了有理分式形式的生成函数的Z反变换，分析表明，留数法用于求解Z反变换有着归纳详尽、使用灵活方便等特点，对实际因果系统的分

期刊

留数法Z反变换生成函数原函数

基于多流多状态动态贝叶斯网络的音视频连续语音识别

与本文相关的学术论文