视听融合算法的研究及应用

来源 :河北工业大学 | 被引量 : 1次 | 上传用户:txiujyhbhoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的不断发展,一种更友好、更自然、更智能化的人机交互技术逐渐成为人们追寻的目标。作为人机交互技术的一个重要研究热点,语音识别技术已经逐渐渗透到人们生活的方方面面。然而,传统的仅使用音频单一通道的语音识别技术已经不能再满足人们复杂的日常生活需要,一种基于视觉信息和听觉信息相结合的新型语音识别技术越来越引起人们的关注。一个高性能的视听融合语音识别系统主要取决于音视频特征的提取和融合模型的建立。基于对人耳听觉特性和系统实时性处理要求的分析,在特征提取方面,本文提取了视听的双模态特征,其中音频特征采用了在语音识别领域具有代表性的MFCC参数,视频特征采用了能有效表征语音信息的唇部轮廓特征。在视听融合模型建立时,通过对现有的两个处理过程的耦合隐马尔科夫模型进行改进和完善,建立了基于初始化、重估和识别三个处理过程的耦合隐马尔科夫模型,并在识别阶段利用自适应的权值选取方法,确定了不同信噪比下两通道信息的最优权值,利用该模型融合视听特征并进行语音识别。采用上述方法,本文对自己建立的特定人数据库和康奈尔大学的先进多媒体实验室的数据库进行了实验,取得了较高的识别率。实验结果表明,基于双通道的语音识别与单通道相比明显提高了系统的识别效率,尤其在复杂环境下,视听特征的互补性可以有效弥补噪声对单通道信息的干扰;基于自适应权值的耦合隐马尔科夫模型具有较好的适用性,具有一定的理论和应用价值。
其他文献
近年来网络通讯技术发展飞快,电子邮件已经成为人们日常工作、生活必不可少的交流工具之一。电子邮件广泛应用给人们带来很大便利,但其中隐藏的经济价值也被利用起来,垃圾邮件由
本文以异构数据源的集成为研究背景,简要介绍了目前异构数据集成所面临的问题及相应的解决方案;提出了基于CORBA技术的异构数据集成系统,详细分析了异构数据集成系统的整体功能
浮体的六自由度运动,是海洋、港口和船舶工程模型试验研究中的的重要参考信息,传统的接触式测量方法是利用直尺测量位移值,使用陀螺仪测量摇角,通过光线示波仪记录信号,人工读取分
基于构件的软件工程从根本上改变了软件开发方式,成为现代软件工程进步中的一个里程碑。它促使了软件大粒度的复用,提高了软件开发速度和质量,降低了开发成本,同时提高了软件的可
地理信息系统(GIS)是用于采集、存储、管理、处理、检索、分析和表达地理空间数据的计算机系统,其研究内容主要集中在空间数据上,属性数据(特别是社会经济属性数据)通常只是
本文针对分布式入侵检测系统进行了较为深入的研究与探索,并在以下方面作出了创新性的贡献.第一,研究了现有的分布式体系结构,指出了现有系统存在的缺点,提出一种基于Agent的
“视频会议系统”是指两个或者两个以上地理上分散的人或者群体,通过传输线路以及多媒体设备,将声音、影像以及文字资料互相传送,达到即时并且互动的沟通,从而完成传统会议目的的
数据挖掘研究如何从大量的数据中智能地、自动地抽取有价值的知识和信息,是当前人工智能中非常活跃的研究领域。粗糙集理论是近年来发展起来的一种有效地处理不精确、不确定的
近年来,信息技术的广泛应用使企业采集到的数据以前所未有的速度增长.但是海量数据采集后并未得到充分的应用和开发,信息含量高、内容丰富的数据库成为无人问津的数据坟墓,造
随着信息时代的到来,社会对软件人才的需求急剧增长,软件人才的培养成为新世纪的一大热点。程序设计CAI(Computer Aided Instruction)软件作为培养软件人才的一种全新辅助教学