非受限条件下的眨眼检测技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:acdef2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
眨眼作为人体的一个典型动作,预示着个体当前的生理和心理状态信息。近些年来,人们逐渐发现眨眼检测可以广泛应用于日常生活中的众多领域,诸如活体检测领域里的行为活体确认,医疗领域的干眼症恢复,刑侦领域的测谎以及辅助驾驶领域的疲劳检测。因此,近十年诞生了大量眨眼检测相关的工作,也取得了较为可喜的结果。但是,目前的方法大多数集中于在特定受约束的数据集上,进行眨眼检测,这与现实生活中的非受限情况相距甚远。因此,如何进行一个非受限条件下的眨眼检测将是一个重要又亟待研究的方向。
  论文阐述了相对于特定受限数据集上的眨眼行为,非受限条件下的眨眼行为在人物属性、人体姿态、光照以及拍摄角度和距离这四个方面具有较大的变化。基于以上发现,分析得出非受限条件下眨眼行为具有目标不受限,目标姿态不受限,目标所处环境不受限以及拍摄不受限四个特点。因此,采用具有相似特点的电影视频为样本来源,收集建立非受限条件下的眨眼行为数据集HUST-LEBW,对非受限条件下的眨眼特点进行可视化描述,并结合现有的先进算法进行性能评估,说明非受限条件下眨眼检测行为的挑战。
  基于以上的探索,论文提出了非受限条件下的眨眼检测技术方法。首先,利用人脸解析算法定位出眼部区域,再利用追踪算法追踪出后续的眼部区域。之后,利用获得的眨眼区域提取人工描述子特征,并利用长短记忆模型抓取时序动作信息,进行眨眼验证。但是,由于眨眼本身在时序上具有差异性,直接使用长短时间记忆模型可能效果有限。因此,论文提出了一种多时序尺度长短时间记忆模型。具体来说,利用多层长短时间记忆模型挖掘多时序尺度的信息;同时,提出一种多时序尺度特征来描述抓取的多时序尺度信息。另一方面,提出了眨眼检测双流特征,进一步提升眨眼检测模型性能。
  进一步地,通过上述研究发现,非受限条件下的眨眼检测模型需要鲁棒地定位出眼部区域,并且能够从中提取出具有足够区分性的特征。鉴于此,论文提出了一种挖掘鲁棒高辨识性眼部区域的方法。具体来说,在保证眼睛定位的正确率的前提下(即鲁棒性),定位出潜在眼部区域。再通过强化学习,联合优化眼部区域定位和眨眼验证两个模块,得到高辨识性眼部区域。同时,考虑到强化学习中的过拟合问题,提出了一种新的奖励(Reward)函数来平衡过拟合和欠拟合问题。最后,考虑到眨眼自身存在时序上的多尺度性质,借鉴多样例学习的思想,提出基于VLAD编码的加权融合模型,使得眨眼检测模型的性能得到进一步的提升。
其他文献
学位
随着5G和物联网的全面推进,对互联枢纽——天线的辐射特性有了越来越高的要求。3D打印技术的商业化应用与新材料的不断涌现使得天线的设计有了更多的可能性。在这样的背景下,非均匀压缩天线是一个非常有价值的研究方向。通过非均匀压缩,控制天线上的电流分布(如幅度比例、相位等)以及天线近邻的电磁场分布,可以实现对天线的小型化、增益强化、波束赋形、阻抗改善或模式增加等功能,同时也赋予了天线设计更多的自由度。本文
半导体光催化技术已被广泛应用于环境污染物的降解,转化和矿化,以及太阳能的转换利用。科学界普遍认为光催化是解决环境污染和能源短缺问题的有效方法。在本论文中,研究了两种新型可见光响应型催化剂,分别是铁电材料钛酸铋(Bi4Ti3O12)和非金属有机半导体石墨相氮化碳(g-C3N4)。由于钛酸铋和石墨相氮化碳固有的局限性,对太阳光的吸收能力有限,并且光生载流子的复合率高,因此可见光下催化性能较差。本论文从
学位
随着无人机和并行计算等技术的发展,基于图像的三维重建在众多领域都有着相关应用。纹理映射对于提高三维模型的真实感有着重要意义,是三维重建的关键问题之一。为优化纹理映射在大规模场景下的性能,基于凸优化方法提出了高并行度的视图选择算法,提高了纹理映射算法的计算效率;利用形变信息抑制扭曲纹理生成,并实现了对三维模型的快速自适应分块,进一步拓展了纹理映射在大规模场景下的实用性;联合图像与三维模型的信息,优化
学位
自20世纪50年代开始,光电成像末制导武器由于其高效费比,大量应用于战场。为有效保护目标,烟幕干扰技术作为一种重要的光电对抗手段被广泛投入使用。烟幕干扰严重影响了红外图像目标识别算法的性能和红外末制导武器的打击效果。相较于空中目标和海面目标,地面目标背景更为复杂,对抗烟幕干扰的难度也更大。如何在烟幕干扰条件下有效地提高地面目标识别算法的性能是亟待解决的问题。论文针对该问题,在红外烟幕干扰图像特性、
图像协同分割任务旨在从一组图像中分割出它们共同包含的目标,这对帮助研究者从海量网络图像中获取感兴趣的物体具有很大的益处,是当前人工智能研究热点之一。尽管关于协同分割的研究已经有较长的历史,但基于深度学习的研究仍存在很多需要深入探讨的问题。当前基于深度学习的协同分割模型利用孪生网络结构提取一对图像的语义特征,再对语义特征执行特征对比,并基于对比后的特征解析共同目标所在的区域。虽然当前的模型的性能相较
学位