视听信息融合方法研究及在语音识别中的应用

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:whsvlsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着信息化社会的不断加快,人类迫切地需要功能更加强大、界面更加友好、更趋向人性化的人机交互技术。单一模式的视觉或者听觉处理模型已经不能满足人们日常的生活需要,以视听觉信息的认知计算为代表的新型技术逐渐引起了人们的关注。   课题以语音识别技术为背景,将语音的视觉信息引入到语音识别系统中,通过对视听信息融合方法的研究和改进,解决了噪声环境下单语音系统识别效率低下的问题。主要研究内容如下:   在视听双模态语音识别系统中,人脸嘴部视觉特征的检测提取与视听特征融合算法是提高系统识别效率的关键。本文针对传统视觉特征提取过程中存在的视觉特征数据量大、时间复杂高、重要特征丢失等问题,采用图像可听化技术对视频图像进行特征提取,基于认知神经科学中感知替代理论的启发,将二维图像信息转换成一维声音信息,既保留了重要的视觉特征又降低了系统的时间复杂度。同时以视听交叉感知的神经生理学为理论基础,针对决策级融合的缺点,以遗传算法优化的 BP神经网络为融合模型,对视频、音频特征进行特征级融合,模拟了视听神经元对信息的处理过程。   实验结果表明,经过图像可听化处理后视觉特征包含了一定的语音信息,在噪声环境下的识别效果比较稳定,神经网络的融合模型提高了系统的鲁棒性,具有一定的理论与应用价值。
其他文献
微博社区识别是基于现实生活中的人发展起来的,具有依赖的真实性、联系的方向性、信息的海量性等特点。传统的社区识别技术大多是基于随机网络的研究,具有数据量比较小、时间复
近些年来,支持向量机由于其坚实的理论基础,实现了结构化的风险化最优,被作为分类工具广泛应用在机器学习的许多领域。传统的支持向量机需要解决一个二次规划的问题。这个问题的
无线Mesh网络因为具有自组织、自配置、低成本、维护简单、鲁棒性强、覆盖范围稳定等特点受到人们的关注。但其也具有无线网络中存在的一些安全问题,一方面无线链路容易受到攻
社会网络中的链接预测是数据挖掘领域的一个重要分支,也是一个社会网络分析的子任务。链接预测的研究内容包括与人们生活密切相关的网络,还包括对科学理论研究有重要意义的网络
自然界中存在的很多系统可以用网络的形式表示,如人际关系网、蛋白质作用网络、交通网络等。这些网络具有很高的复杂性,因此被称为“复杂网络”。社区结构是复杂网络研究的几
  动态场景下的运动目标检测是视频序列中目标识别、跟踪和行为分析等后续处理的基础和关键,在视频监控、智能交通及军事领域中有着广泛的应用。由于摄像机的平移、旋转和缩
近年来,随着城市现代化水平的提高,带了诸如交通拥堵、环境污染、道路使用率低等问题,世界各国都面临交通问题带来的困扰。智能交通系统(Intelligent Traffic System)的提出,让世界
运动参数估计是计算机视觉的一个基本问题,也是模式识别和目标跟踪领域的一个核心问题,运动参数估计的基本任务是从图形序列中检测出运动信息,估计目标的运动参数,预测出目标的位
网络人脉的推荐研究多利用图论的方法,对构造出来的社会网络关系图的结点和边进行探讨,其中结点代表社会网络参与者(即用户),连结两个结点的边代表参与者之间的某种关系(比如互
  针对基于内容的图像检索中广泛存在的“语义鸿沟”问题,提出一种基于小波轮廓的图像语义标注方法,在图像分割阶段利用膨胀和腐蚀原理对分割区域面积进行调整,通过消除斑点和