基于发音特征的音视频融合语音识别模型

来源 :计算机工程 | 被引量 : 0次 | 上传用户:hedayang82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。 This paper constructs a speech and audio dual-stream Dynamic Bayesian Network (AFN) speech recognition model (AF_AV_DBN) based on pronunciation features, and defines the conditional probability relationships of nodes so that the variation of pronunciation feature states can be asynchronous. Speech recognition experiments on audiovisual and voice databases show that the AF_AV_DBN model can achieve higher recognition rate than the state-based synchronous and asynchronous DBN model and audio single-stream model by adjusting the asynchronous constraints between pronunciation features, Better robustness.
其他文献
目的 研究第1跖骨远端截骨后克氏针和绷带固定对拇外翻的作用效果.方法 通过拇外翻的医学影像数据建立完整的三维足部有限元模型,此模型包括足骨、籽骨、软骨、韧带、软组织
路线线形优化设计是一项非常复杂的任务,公路路线线形设计在保证汽车行驶安全性、舒适性与经济性的同时,还必须考虑公路路线线形对地形、地物、景观等条件的适应性.路线纵断
会议
在运动训练过程中 ,起主导作用的教练员运用自己所掌握的科学知识和丰富的实践经验去指导运动员从事训练 ,对运动员的生理机能和心理过程加以改造 ,以提高和创造优异的运动成
“这次在南京做手术,自己掏钱少不说,还没有多跑一步路,实在太方便了!”面对记者的采访,江苏省泰州市高港区白马镇77岁的窦大爷感激之情溢于言表。 “This operation in Na
本文主要从实用技术层面阐述了企业网络所面临的几种安全隐患,同时也给出了一些常用的防护措施和策略,以求较全面地解决企业网络所存在的安全问题.
建设部制定的计算机发展纲要,是指导勘察设计单位提高计算机应用水平的指导性文件,图档管理计算机化是其中的重要内容.通过对万维2000图档管理系统进行试用,发现其一些思路和
目的 研究足跟痛病症的发生与康复机制,为临床上足跟痛治疗方法的有效性提供理论依据.方法 对足跟痛患者足膝部CT、MRI影像数据进行三维重建,建立患者足膝部的骨骼-肌肉复合
目的通过计算流体力学(computational fluid dynamics, CFD)分析Stanford B型夹层的血流动力学参数,从而有效全面评估疾病。方法基于1例复杂的Stanford B型主动脉夹层患者的
目的 研究支架植入后趋直现象对病变处血管壁力学环境变化的影响,探索支架植入后再狭窄的生物力学成因及支架优化方法.方法 基于患者CT扫描图像,使用Mimics、Geomagic和Pro/E
本文针对建筑卫生陶瓷烧成用不同系列窑型隧道窑的18项技术经济指标,采用一种多目标决策分析方法——具有先验偏好的离散模型的消去与选择转换算法ELECTRE Ⅰ对其进行了定量
会议