论文部分内容阅读
眨眼作为人体的一个典型动作,预示着个体当前的生理和心理状态信息。近些年来,人们逐渐发现眨眼检测可以广泛应用于日常生活中的众多领域,诸如活体检测领域里的行为活体确认,医疗领域的干眼症恢复,刑侦领域的测谎以及辅助驾驶领域的疲劳检测。因此,近十年诞生了大量眨眼检测相关的工作,也取得了较为可喜的结果。但是,目前的方法大多数集中于在特定受约束的数据集上,进行眨眼检测,这与现实生活中的非受限情况相距甚远。因此,如何进行一个非受限条件下的眨眼检测将是一个重要又亟待研究的方向。
论文阐述了相对于特定受限数据集上的眨眼行为,非受限条件下的眨眼行为在人物属性、人体姿态、光照以及拍摄角度和距离这四个方面具有较大的变化。基于以上发现,分析得出非受限条件下眨眼行为具有目标不受限,目标姿态不受限,目标所处环境不受限以及拍摄不受限四个特点。因此,采用具有相似特点的电影视频为样本来源,收集建立非受限条件下的眨眼行为数据集HUST-LEBW,对非受限条件下的眨眼特点进行可视化描述,并结合现有的先进算法进行性能评估,说明非受限条件下眨眼检测行为的挑战。
基于以上的探索,论文提出了非受限条件下的眨眼检测技术方法。首先,利用人脸解析算法定位出眼部区域,再利用追踪算法追踪出后续的眼部区域。之后,利用获得的眨眼区域提取人工描述子特征,并利用长短记忆模型抓取时序动作信息,进行眨眼验证。但是,由于眨眼本身在时序上具有差异性,直接使用长短时间记忆模型可能效果有限。因此,论文提出了一种多时序尺度长短时间记忆模型。具体来说,利用多层长短时间记忆模型挖掘多时序尺度的信息;同时,提出一种多时序尺度特征来描述抓取的多时序尺度信息。另一方面,提出了眨眼检测双流特征,进一步提升眨眼检测模型性能。
进一步地,通过上述研究发现,非受限条件下的眨眼检测模型需要鲁棒地定位出眼部区域,并且能够从中提取出具有足够区分性的特征。鉴于此,论文提出了一种挖掘鲁棒高辨识性眼部区域的方法。具体来说,在保证眼睛定位的正确率的前提下(即鲁棒性),定位出潜在眼部区域。再通过强化学习,联合优化眼部区域定位和眨眼验证两个模块,得到高辨识性眼部区域。同时,考虑到强化学习中的过拟合问题,提出了一种新的奖励(Reward)函数来平衡过拟合和欠拟合问题。最后,考虑到眨眼自身存在时序上的多尺度性质,借鉴多样例学习的思想,提出基于VLAD编码的加权融合模型,使得眨眼检测模型的性能得到进一步的提升。
论文阐述了相对于特定受限数据集上的眨眼行为,非受限条件下的眨眼行为在人物属性、人体姿态、光照以及拍摄角度和距离这四个方面具有较大的变化。基于以上发现,分析得出非受限条件下眨眼行为具有目标不受限,目标姿态不受限,目标所处环境不受限以及拍摄不受限四个特点。因此,采用具有相似特点的电影视频为样本来源,收集建立非受限条件下的眨眼行为数据集HUST-LEBW,对非受限条件下的眨眼特点进行可视化描述,并结合现有的先进算法进行性能评估,说明非受限条件下眨眼检测行为的挑战。
基于以上的探索,论文提出了非受限条件下的眨眼检测技术方法。首先,利用人脸解析算法定位出眼部区域,再利用追踪算法追踪出后续的眼部区域。之后,利用获得的眨眼区域提取人工描述子特征,并利用长短记忆模型抓取时序动作信息,进行眨眼验证。但是,由于眨眼本身在时序上具有差异性,直接使用长短时间记忆模型可能效果有限。因此,论文提出了一种多时序尺度长短时间记忆模型。具体来说,利用多层长短时间记忆模型挖掘多时序尺度的信息;同时,提出一种多时序尺度特征来描述抓取的多时序尺度信息。另一方面,提出了眨眼检测双流特征,进一步提升眨眼检测模型性能。
进一步地,通过上述研究发现,非受限条件下的眨眼检测模型需要鲁棒地定位出眼部区域,并且能够从中提取出具有足够区分性的特征。鉴于此,论文提出了一种挖掘鲁棒高辨识性眼部区域的方法。具体来说,在保证眼睛定位的正确率的前提下(即鲁棒性),定位出潜在眼部区域。再通过强化学习,联合优化眼部区域定位和眨眼验证两个模块,得到高辨识性眼部区域。同时,考虑到强化学习中的过拟合问题,提出了一种新的奖励(Reward)函数来平衡过拟合和欠拟合问题。最后,考虑到眨眼自身存在时序上的多尺度性质,借鉴多样例学习的思想,提出基于VLAD编码的加权融合模型,使得眨眼检测模型的性能得到进一步的提升。