一种基于手势进行人机交互的安全实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kenxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,许多科研人员致力于电子设备创新交互方式的研究,并据此开发了众多人机交互应用。手势分类技术,作为人机交互方式中的重要一环,也逐渐成为了许多现实应用(如手势识别及可穿戴设备的视觉交互)的迫切需求,且应能适用于不同光照、背景等诸多环境。目前,许多现有的方法都能精确地识别手势,但是,在实际应用中依然存在着诸多的挑战,包括:环境的复杂性、不变量的不同性,例如处理时间、执行框架,以及系统的安全性、准确性等等。此外,手势分类技术是当下电子设备展现其智能性的重要领域,因为它提供了创新性的交互方式和通信方法。在实际场景下,视觉交互应用程序需要通过与可穿戴设备进行交互,以准确识别人的手部动作。一般而言,可以将手势动作划分为6类,包括:左移、右移、上移、下移、放大、缩小。本研究开发了一种基于YOLACT(You Only Look at Coefficients)、FRB-SN(Face RecognitionBased Security Network)以及TRN(Temporal Relation Network)的新颖架构。YOLACT是一种用于从背景中分割用户的实时实例分割方法,而FRB-SN与TRN则主要用于用户的识别以及手势的解读。在本研究中,我们使用20BN Jester数据集的分段版本以及VGGFACE2数据集对YOLACT和FRB-SN进行分别训练,并根据YOLACT生成的分段动作视频进行TRN网络的学习。在预测流程中,YOLACT将首先从给定的图像序列中分割用户,然后将结果传给FRB-SN用于用户的检测和识别,最终,TRN模型将预测用户的手势动作,从而实现手势的实时识别。为了测试新提出的模型的性能,本研究进行了一系列相关的实验。实验结果展示出了本实时视觉交互框架的高效性和可靠性,我们会在之后篇幅中详细描述训练和预测的相关实现细节。此外,本研究还对视觉交互、图像分割、动作识别等领域展开了研究。特别地,本研究使用20BN Jester数据集对YOLACT和TRN模型进行训练,该数据集包含一系列在不同背景、环境下的手势视频,契合本模型的实际需求。YOLACT的主要目的是从输入图像中删除不必要的信息,只有从图像前景中提取到的用户才有权限对整个系统进行特定的操作。之后,在将序列传递给动作识别模型以识别相应手势之前,被提取到的图像帧会先提供给FRB-SN网络以识别用户的面部特征。为了测试模型实际的效果,本研究在不同的场景条件下对框架进行了测试。实验结果表明,从各个方面而言,本框架都拥有着优异的帧率和准确率。视觉交互系统能够在7和10 FPS之间运行,而动作识别模型的精度为97.65%。
其他文献
随着互联网时代的来临,人们能从媒体获取的信息越来越多。信息抽取这一学科正是研究如何从海量的文本数据中抽取出关键的信息,因此成为了很多学者关注的课题。本论文所提出的两个工作分别是属于信息抽取的两个分支:开放式信息抽取和命名实体识别。对于开放式信息抽取,本文分别从模型和数据使用上有所创新。在模型上,本文提出了基于短语级别的开放式信息系统并且在与其它系统的比较中取得了最好的成绩。在数据上,本文提出了将置
本篇文章探索的主题是人类的语义处理过程。人类的语义处理是人脑神经元之间通过神经冲动与神经突触构建的网络形成的生物物理过程。它可以将人类通过不同感官接收到的语言文字表达形式与认知系统中对事物概念的理解和含义联系起来。语义处理的生物基础是神经元间的协同激活状态(神经表示)。通过大脑成像方法测量神经活动可以用于推断大脑的神经表示。生物编码实验是对对大脑的内在活动进行建模探索的一种方法。它可以通过建立人为
毛纺织行业是纺织行业的重要组成部分,是生产高品质、创造高价值、体现高品位时尚生活的消费品工业,也是蕴含历史文化,融合现代科技,涉及牧工贸三产联动的民生产业,在加快人民生活品质提升,满足人民美好生活需要,促进国民经济健康发展中发挥着重要作用。"十四五"时期是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主义现代化国家新征程、向第二个百年奋斗目标进军的第一个五年。根据
期刊
随着近年移动设备搭载的摄像头个数持续增加,CMOS图像传感器的市场情况持续火热。虽然目前的图像处理技术已经有了很大的提高,但由于一些客观原因的存在,总会使得采集的原始图片中存在一些坏点,极大地影响了图片质量。因此本课题将对CMOS图像传感器的坏点校正问题展开研究。本文基于图像传感器中坏点的特性,采用先进行静态坏点校正再进行动态坏点校正的方式,对图片中可能存在的坏点进行处理。其中静态坏点校正处理3×
正电子发射断层成像技术(Positron Emission Tomography,PET)是目前分子水平上进行功能显像的最先进的医学影像技术,适用于脑部成像,心血管疾病,肿瘤等疾病的早期预警与诊断,在国内外受到高度关注和广泛应用。PET系统中事件处理是前端电路与图像重建的重要桥梁,直接影响成像效率和重建图像质量。脑部PET系统事件处理主要包含解码、延时校准以及符合等环节。对于PET系统,采集过程将
随着深度网络在各图片任务上取得巨大成功,越来越多研究将重心放在更为复杂的视频理解任务上。动作识别任务的目的是对视频中所有人的动作进行时空位置的捕捉以及动作的识别,是重要的视频理解任务之一。动作识别课题具有重大的科研以及应用价值。动作识别能够广泛地用于监控摄像头、自动驾驶、平台视频审核和商业化、人类行为学研究等领域。本文基于视频中存在的多种交互关系对动作识别课题进行研究。交互关系泛指视频中人和环境的
图像实例分割是一种非常重要的数字图像处理技术。近年在深度学习技术的推动下,该技术得到了飞速的发展,但仍然存在一些缺陷。在这个论文中,我们主要讨论两种改善优化图像实例分割结果的方法。第一个方法,是基于注意力机制的优化方法。图像实例分割方法虽然多种多样,但是对于小尺寸物体的实例分割还多存在着遗漏或误分割的情况。我们通过改进处理流程,将注意力机制应用于图像实例分割的处理流程中,以优化对于小尺寸物体的实例
大数据时代为诸多行业的变革提供了巨大推动力。为获取和处理更多数据,越来越多的技术被发明和应用,“万物互联”已成趋势。大多物联网数据同时具有时间和地点标签。近年来,大规模时空序列层出不穷。基于大数据对时空序列相关性和因果性进行挖掘,并据此进行推断和预测成为了大数据的重要应用之一。本文的研究内容为大规模低频时空序列的预测和大规模高频时空序列的模式识别,主要在大规模时空序列的模型上进行一些改进与尝试以便
由于疾病、创伤和老年化等原因造成的大范围骨缺损的修复与替代问题,是人类几个世纪以来不断深入研究的重要课题。然而迄今为止,临床上对大范围骨缺损的治疗仍是世界难题。利用骨科植入物来重建缺损部位骨组织的结构和功能是现代骨科学的主要治疗手段。近年来,3D打印技术的发展为骨科植入物的设计和制造带来了革命性变化。孔隙结构由于其可控的力学性能和优异的生物学特性,越来越多的应用于骨科植入物的设计中。三周期极小曲面
图像配准是一个寻找两幅或多幅图像的空间对应关系的过程,是一种应用广泛的核心图像处理技术。随着科学技术的快速发展与人民生活水平的提高,在医学图像配准领域,一方面,临床成像技术得到了发展,医学成像设备得到了推广与普及,涌现出了大量的含有丰富的结构或功能信息的图像数据,这给图像配准技术带来了极大的挑战。另一方面,图像配准技术也被应用到各种极具挑战的临床应用场景中,研究者们针对其应用场景提出了大量适用性的