基于双层分类模型的实时语音情感与音素识别

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:huangxiaojie33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音交互是人机交互最自然的方式,作为其基础的语音识别技术一直是计算机领域的热门研究议题,语音识别过程包括语音信号预处理、声学特征提取、特征向量降维处理和基于统计模型的语音识别。本文着眼于该领域近年来备受关注的情感识别和音素识别两大分支,通过对现有统计模型的改进,实现了语音的情感和音素实时识别。首先提出了本论文的研究背景及研究内容,简单说明了情感识别和音素识别的重要意义,然后回顾了目前语音研究中常用的各种声学特征,分别简要介绍了情感识别和音素识别中常用的统计模型和降维算法。本文将在文本分类、图像识别等领域应用广泛的AdaBoost+C4.5模型引入语音领域,并且将该模型改造为输出双标签的双层分类模型,讨论了该双层模型的两种训练策略,比较了两者的优劣,最终成功实现了语音的实时情感识别和音素识别。在上层的情感识别中,为了突出情感的连续性,引入了差分的声学特征,为了避免情感的跳跃变化,采用了加权投票的约束策略;在下层的音素识别中,为了克服协同发音的影响,采用了前向帧关联的发音模型,为了提高识别的速率,对多帧高维向量进行了Isomap非线性降维处理。本文提出的分类模型具有潜在的商业应用价值,可以应用在低频带网络通讯、虚拟主持人、游戏CG制作、自动客服系统、电影和广告中的角色模拟等许多领域。
其他文献
随着电子邮件应用越来越普遍,垃圾邮件问题已经有愈演愈烈之势,严重地影响了电子邮件的正常使用。因此,垃圾邮件过滤技术的研究有着十分重要的实用价值。近年来,基于机器学习
无线局域网WLAN(WirelessLAN)是计算机网络技术与移动通信技术相结合的产物,具有有线网络无法比拟的移动、灵活性,真正实现了人们随时随地自由接入网络的需求。随着无线局域网
近些年来,数据挖掘(Data Mining)技术在医学上已经得到了广泛的应用。本文从手术诊断实际需要出发,研究了决策树挖掘技术在医学诊断中的应用研究问题,并且构建了一个可视化的实
本文在对进化算法的研究基础上,提出了基于遗传编程方法和键合图理论的对非线性系统的辨识方法。本文在简要介绍了进化算法的发展情况后,着重论述了进化算法的一个分枝——遗传编程。本文详细说明了遗传编程的基本算法和操作流程,给出了遗传算子的运行示例。介绍了非线性系统辨识研究目前的发展状况,并结合无线局域网接入点构造问题的例子,对基于遗传编程方法的非线性系统辨识做了理论证明。键合图是一种系统动力学建模方法,本
为解决当前高校资源信息缺乏有效共享、应用缺乏有效集成、用户缺乏统一接口等问题,通过借鉴现有企业资源规划(ERP)和大学资源计划(URP)的一些技术和项目经验,本文提出一种基于
当今社会,市场环境变幻莫测,技术更新突飞猛进,各企业需要不断完善优化自身的业务运营模式以便在竞争激烈的市场环境中赢得主动。“企业流程”成为各企业关注的热点,通过流程再造可以减少企业的成本消耗,树立企业的竞争优势,增强企业的核心竞争力,使企业在激烈的竞争中立于不败之地。工作流仿真技术的应用,有助于各企业改进自身的业务流程,提高企业的工作效率。本文首先对工作流和Petri网的相关理论进行了概述,重点介
无线通信网络和移动设备的出现与普及促进了移动计算的发展。由于移动计算不同于传统的分布式计算环境,有其鲜明的特点:移动性、断接性、弱连接性、资源的局限性、网络通信的多
随着信息技术的飞速发展,基于TCP/IP协议的互联网得到广泛的应用,其影响已经渗透到了我们生活的各个方面。TCP/IP网络体系结构的成功来源于其开放性与简单性,而这种开放性与简单
随着数据大爆炸时代的到来,大数据业已成为信息领域的一大研究热点。目前已有不少云计算环境下基于MapReduce模型的分布式处理系统可以有效提供高效的大数据查询处理方案(例
鉴别协议在网络安全中占有很重要的地位,而对于鉴别协议的设计和分析都是很困难的。如果通过验证已有的攻击手段来分析鉴别协议,最主要的问题是我们无法穷尽所有的攻击类型。