基于唇语识别的交流辅助系统的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:wffg0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是计算机视觉领域一项极具挑战的任务,其目的是根据说话人唇部运动视频识别出其说话内容。一方面,在嘈杂环境中,当语音识别受到影响时,唇语识别技术可作为其辅助手段,突破环境限制。另一方面,唇语识别能够辅助听力障碍人士进行正常交流。此外,唇语识别技术在人机交互、视频监控、公共安全及身份认证等领域具有广阔的应用前景。作为一项新兴技术,整体上较低的识别精度使得该项技术仍停留在理论研究阶段,未能应用于实际。针对这一现状,本文使用深度学习方法,从人脸检测、唇部区域定位与提取、唇语识别三个方面进行研究。本文所做的工作和创新点如下:(1)针对使用Haar特征进行人脸检测准确率低及使用HOG特征进行人脸检测速度慢的问题,为了在保证准确率的情况下实现人脸实时检测,本文提出了一种基于Haar特征和HOG特征的人脸检测加速算法。此算法在脸部位置相对固定的情况下,可保证较高准确率以及较快检测速度。(2)针对3D卷积在提取唇部运动视频空间时序特征时忽略空间时序信息不对称性的问题,为挖掘更多的隐含特征,有效学习唇动序列帧的空间时序信息,本文提出了一种(2+1)D卷积,其中(2+1)D卷积对3D卷积进行因式分解,将其原有的一步操作分为两步:独立连续的二维空间卷积和一维时间卷积。充分考虑时间和空间的不对称性,利用(2+1)D卷积可提取更丰富、更抽象的唇部运动短期空间时序特征,利于后续唇部运动的长期空间时序特征的提取。(3)针对现有唇语识别算法对空间时序信息提取能力不足的问题,为了提高对句子识别的准确率,本文提出一种基于(2+1)D CNN-BiGRU网络的唇语识别模型,结合(2+1)D CNN强大的短期空间时序特征提取能力和BiGRU网络对时序数据的记忆能力,使得该模型可同时利用过去和未来所有时序信息,将当前图片的特征扩充至整个序列图片中,实现对整个唇动时序特征的有效学习。在GRID数据集上进行测试,实验结果表明该模型有较高的识别精度,性能优于对比模型。(4)为满足唇语识别实际需求,本文基于(2+1)D CNN-BiGRU唇语识别模型设计实现了一个唇语识别交流辅助系统,该系统实现了视频采集、人脸检测、唇部定位与提取和唇语识别的功能,基本满足唇语识别的需要。
其他文献
脑机接口系统(BCI)为大脑与外界环境的信息交流开辟了一条新的通道,帮助患有脑部损伤的人士获得了更好的康复机会。目前,越来越多的研究小组已投入BCI的研究中。本文选择基于稳态视觉诱发电位的脑机接口(SSVEP-BCI)作为研究对象,它具有响应时间短、训练次数少、信息传输率高等优点。在具体的研究内容方面,本文选择SSVEP-BCI信号处理算法进行研究。虽然经过多年的研究,SSVEP-BCI的信号处理
学位
随着我国经济和科技的快速发展,物流行业作为第三产业也得到迅速发展,并成为我国国民经济的重要组成部分。然而,由于庞大的物流信息网并没有得到良好规划,导致我国物流车辆的空驶率居高不下,大量的物流资源没有得到充分利用。因此,如何对有剩余运力的物流方与运输需求的客户方进行统筹分配,降低物流方空驶率,节约客户成本,是当前亟需解决的问题。第四方物流平台可以对双方的信息进行整合,为双方提供解决方案。本文基于第四
学位
学位
由于人类与环境的相互影响,环境问题越发受到人类的关注。以往追求经济快速发展而带来的环境污染、资源短缺等问题亟待解决。制造业因为巨大的能源消耗需要做出改变,基于可持续发展战略的节能调度研究受到广泛关注。在传统的调度问题研究过程中,一般把生产效率作为主要目标。然而现今的制造业不仅需要注重生产效率,还要关注能源效率。在车间调度研究中,将传统的作业调度策略与新型的节能策略相结合,实现生产效率与能源效率的多
学位
学位
学位
学位
随着工业互联网和信息技术的发展,工业生产数字化率和关键工艺流程数控化率都在不断上涨。对于企业而言,基于网络的生产设备、传感器、控制系统和管理系统等的广泛互联,使得大量工业现场数据的获取成为可能,并且伴随现场数据生成了一系列对应的解决方案和操作数据。同时,在工业系统的过程控制、现场操作和全流程的分析过程中产生了很多基于经验的“知识”。利用大数据技术对现场异常状态的解决方案进行案例匹配,基于案例匹配结
学位
光纤型声波传感器由于具有与电绝缘,质量轻,响应速度比较快,灵敏度高等突出优点,正逐步应用到声波探测领域当中。Sagnac干涉仪的两臂长度一致,两束光在其中传输具有零光程差的特点,所以具有可使用宽带光源而不需要使用昂贵的窄带光源等优点,尤其适合工业现场应用,是目前光纤型声波传感器的研究热点。本课题从Sagnac干涉型声波传感器的理论分析出发,搭建了传感器的实验平台,分析了不同因素对传感器输出信号的影
学位
随着计算机深度学习技术的不断发展更新,及当前硬件应用技术的高速更迭,其热门应用目标检测技术无论从商业角度还是社会角度都体现出了极高的价值,该技术在智能机器人、无人驾驶系统、智能监控等领域的应用都成为了时代发展的热点话题。本文针对当前应用广泛的目标检测网络Faster R-CNN提出了改进的深度学习算法进行优化,其中主要工作如下:首先针对物体未被检测及分类错误的现象,本文引入了结构推理网络。该网络主
学位