基于深度学习的中文唇语识别方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:lpt207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是融合了计算机视觉、语音识别和自然语言识别等多领域技术的课题,目的是解码说话者嘴唇运动生成的文本,具有非常广阔的应用场景和现实意义,目前最常见的是用于辅助提升语音识别准确率,也可以帮助听障人士进行交流等。随着深度学习的发展,唇语识别技术在英文方面取得了长足的进步,但中文无论是在数据集的丰富性还是识别的准确率上均存在一定的落差。本文通过分析中文的发音特点,利用深度学习技术,意图在句子级别进行中文唇语识别,并提高识别准确率。具体研究内容包括以下两个方面:第一,深入研究中文发音的原理和特点,总结出了几种适合于中文唇语识别的建模单元集(词、音节、声韵母和中文音素),并分析了它们各自的优缺点和适用性。然后,通过分析中文发音的视觉特点可知,组合成短语或句子的汉字发音在唇形变化上极具混淆性。据此,提出“视觉拼音”这一概念,它是通过对中文音素进行视觉相似性归类得到的,尽可能地规避中文在视觉表达上的歧义性,这也是中文唇语识别领域的一个新的建模单元集。通过实验对比,得出视觉拼音相比于其他建模单元集,更适合中文唇语的解析。第二,基于深度学习技术,设计和实现中文唇语识别模型。为了验证视觉拼音的有效性,建立了以视觉拼音作为建模单元集的端到端句子级中文唇语识别模型。模型基于两个带有注意机制的序列到序列网络串联而成,作用分别是:(1)解析唇部视觉特征,将视频帧表达成视觉拼音;(2)以唇部视觉特征辅助矫正视觉拼音,将视觉拼音序列翻译成汉字语句。实验结果表明,相比于其他方法,本文利用视觉拼音建立的模型性能更优,可以更准确地识别汉字。本文工作面向中文自身的特点,提出了一个新的中文唇语识别建模单元集——视觉拼音,并基于视觉拼音构建了一个端到端的中文唇语识别模型。实验结果一方面证明了所建模型的性能更优,另一方面也证明了视觉拼音的参与可明显提高中文唇语识别的准确率,为将来的相关工作提供了参考。
其他文献
资源描述框架(Resource Description Framework,简称RDF)及其模式RDF Schema(统称为RDF(S)),是万维网联盟(World Wide Web Consortium,W3C)推荐的用于语义Web处理数据的通用模型。RDF(S)的构建以及存储对语义Web的发展有着重大的影响。因此,将不同类型数据源中的数据自动构建成RDF(S)以及对RDF(S)进行有效管理成为
学位
随着语义Web技术的快速发展与进步,资源描述框架(RDF)作为W3C推荐的一种元数据模型和信息描述规范,广泛地应用于各种领域中。RDF模型是一种简单且易扩展的数据表示方式,能够准确,灵活地表达Web数据中的语义信息。各种实际应用中都存在着大量的时态信息。Web中的数据事实也是动态的,具有一定的时效性的。为了跟踪Web数据随时间的变化,将时态信息引入到RDF的框架中。因此,研究者们提出了时态RDF模
学位
随着基于位置服务的普及和空间定位技术的发展,许多应用通过获取移动终端的地理位置,向用户提供位置相关的服务和查询。空间索引在空间数据库中起着重要作用,其性能决定了数据访问和查询处理的效率。空间数据规模越来越大,如何设计一种高效、轻量的空间索引结构,提高数据库吞吐效率,并且减小索引文件的存储成本,一直是空间数据库领域的一个热点问题。本文设计并实现了一种空间对象学习索引——SLI(Spatial Lea
学位
随着物联网技术和智能医疗的发展,无线人体局域网的出现给目前医疗系统对病人的实时监测和响应处理提供一种新的可能。智能医疗的发展离不开数据的感知和采集,有了无线人体局域网的出现,数据的感知与采集将会变得十分便捷。虽然无线体域网有着很好的应用前景,但如何保证医疗用户隐私数据的安全性、无线体域网高效可靠的身份认证和安全管理也成为目前亟待解决的问题。本文深入研究了体域网智能医疗系统的安全框架及身份认证技术,
学位
知识图谱的研究包括构建与应用,而知识表示与推理不仅是实体对齐、三元组分类等构建技术的基础,而且是智能检索、知识问答、推荐系统等应用技术的关键,因此知识图谱的表示与推理是贯穿知识图谱构建与应用的关键基础研究。知识表示与推理研究的主要目的是提升推理能力与计算效率。但目前的方法大多仅关注推理能力,增加模型参数以提升模型性能,却降低了推理效率。基于属性、规则等额外信息增强知识表示学习和推理模型,不仅能提升
学位
语义Web是基于图和“链接”的组织方式,但是所链接的不再是网页而是客观世界中的实体,实体之间的链接也被增加了语义描述。RDF是语义Web中用于组织语义化数据的数据模型,RDF Schema通过定义RDF使用的词汇为其赋予语义。知识图谱作为语义Web发展的产物成为了研究的热点,知识图谱中将三元组称作为知识。RDF通过聚合大量的知识实现快速响应和推理,已经被广泛地应用到智能领域作为数据组织的方式。We
学位
无人机(Unmanned Aerial Vehicle,UAV)蜂群是近年来国际上的技术研究热点,它能够克服基于单UAV的所存在能力受限、生存率低和完成任务概率低等缺陷,协同多机以完成重要任务。设计实现UAV蜂群在理论上、实践上都是极具技术挑战的问题。本学位论文的研究目标是:深入研究UAV蜂群的某些关键技术,探讨设计实现UAV蜂群原型系统的方法。为此,本学位论文研究解决如下关键技术。首先,为使多架
学位
基于知识图谱的问答使用知识图谱的三元组事实(主语,关系,宾语)来回答自然语言问句,本文聚焦于面向开放领域知识图谱的简单问答,即该问句可以通过一个三元组事实得到答案。此类问答通常包含两个构件:主语识别和意图预测。经过主语识别和意图预测后,得到了该问句在知识图谱中对应的主语实体和关系,组成查询模式(主语,关系,?),查询知识图谱得到答案。现有的方法在主语识别和意图预测中都各自存在一些问题。在主语识别中
学位
伴随着便携式智能设备和高速网络的普及与发展,社交网络正深度融入人们的日常生活,甚至已然成为社交生活的另一个主战场。大量的活跃用户带来了海量高维的数据信息,这些信息可以帮助人们更好的观察和研究社会网络以及人类行为模式的演变。链接预测作为社交网络研究中的基本问题,其目的在于预测现有网络中潜在的未被观察到的链接或是未来网络中可能出现的链接,同时因其丰富的实用价值被广泛的应用于各个领域。传统的链接预测方法
学位
随着语义Web技术的高速发展,用于表示与共享Web元数据的RDF(Resource Description Framework)模型已渗透到越来越多的项目和领域。经典RDF模型只能表示静态语义,无法满足时间敏感场景下处理语义随时间动态变化和管理版本记录的需要。为此,研究者们提出将时态数据和更新次数引入经典RDF模型得到一种时态RDF模型,既可以表示在特定时间段内与三元组相关的状态信息,还能统计和管
学位