基于视觉信息的语音识别技术研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:zyjwxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人机交互领域中,传统的单语音识别技术在相对安静的环境下能够对连续的单词及词组达到较高的识别率。然而,将其应用到有背景噪声或多人交互的真实环境时,其识别能力受到了极大的限制。现实语音交流中,说话人的视觉信息可以明显提升接受者的感知能力。因此,本文主要研究了计算机视觉技术在自动语音识别中的应用。 本文首先介绍了基于视觉的视听语音识别(AVSR)系统的整体框架,并对传统的单视觉、单音频的特征提取和识别方法进行了分析比较。认为人脸嘴部视觉特征的检测提取与视、音特征融合是提高系统整体语音识别能力的关键,亦是本文主要的研究工作。 为了满足视觉特征的实时检测,我们首先引入了旋转哈尔特征在积分图像中的应用,在基于Adaboost推进学习算法上通过使用单值分类作为基础特征分类器,以级联的方式合并强分类器,划分检测区域并用于嘴部定位,最后通过卡尔曼滤波跟踪、主成分分析、线性判别、音节分析,抛弃了大量对后期特征融合识别无用的特征量,快速有效的提取了人脸嘴部特征。音频语音特征的提取我们采用了较成熟的Mel倒谱系数方法。对所获取的单视、音特征采用隐马尔可夫模型作为训练识别算法。耦合隐马尔可夫模型的实现可以在时间上对视、音频流状态的异步过程建模,并且保留了视、音特征的独立性,实现了视、音特征流在决策级上的融合识别。 最后,本文将单视、音及视-音融合识别技术应用于视听语音识别系统中,对连续单词进行多级噪声环境下的语音识别测试,实现了基于视觉信息的语音识别技术在外部环境干扰下较为稳定的识别能力。
其他文献
随着Internet的不断发展以及信息处理的不断增多,数据库安全问题变得日益重要。数据库中原始数据一般以明文形式存储,很容易被外部恶意攻击者窃取。目前,数据加密技术成为一
Internet的迅猛发展推动了视频直播系统的广泛应用,但现有的视频直播系统在扩展性、鲁棒性、质量保证等方面远远不能满足需要。传统的基于单播的传输方式很容易导致服务器端
由于用户越来越多的个性化网络服务需求,传统互联网的僵化现象日渐显著。网络虚拟化不仅被认为是创建云计算生态系统的有效技术,而且被认为是未来互联网最有应用前景的技术。
无线传感网(Wireless Sensor Network,WSN)综合了嵌入式系统,无线通信和现代网络等先进技术,目前已经成为研究的热点方向和领域。通过在监测区域内布置一定数量传感器节点进
Peer-to-Peer(P2P)以其丰富的应用模式正在迅速流行,在短短几年里,P2P应用己成为了占用Internet流量最多的应用,被《财富》杂志称为改变互联网未来发展方向的四大技术之一。
目前,对仪表进行校准和检定工作主要还是由人来完成的,这种采用人工读取和记录其数据的方式,存在着工作效率低,检测精度难以保证等缺陷。如何解决这些问题已越来越引起仪表生产厂
话音安全传输系统需要解决的主要问题是传输和安全。传输主要包括语音流传输和语音编码的研究,其中语音编码是整个系统的难点,也是本文的重点。话音压缩编码解决了话音原始数
随着Internet的迅速发展,网络信息不断膨胀,给搜索引擎带来了前所未有的挑战。人们对搜索引擎的关注程度越来越高,因此搜索引擎的发展水平在一定的程度上决定了互联网资源的
句法分析的基本任务是确定句子的句法结构,由于语言的复杂性,句法结构往往有歧义的存在,需要引入大量信息来减少歧义,提高句法分析结果。句法分析一般分为短语结构句法分析和
随着信息技术的迅速发展,高维数据在社会科学和自然科学研究领域广泛出现,一方面带来了更多可用信息,另一方面给数据的处理分析带来了巨大挑战。尤其是随着数据挖掘技术的广