论文部分内容阅读
人和物体在日常生活中都是以三维形式存在,人的双目视觉可以感知物体的三维信息,包括物体的颜色、轮廓、纹理及其在场景中的深度信息。传统的计算机视觉研究主要对二维彩色图像进行仿照人眼功能的图像处理与识别研究,把三维目标和场景在相机坐标系上进行二维投影并进行进一步的分析识别,虽然已经有了丰富的研究方法和研究成果,但其也存在发展瓶颈。二维图像处理与识别容易受到物体遮挡、光照变化、拍摄角度变化等多方面的干扰,其中一个造成上述干扰的根本原因是把三维空间信息压缩为二维平面信息进行处理识别,即在压缩中丢失了一部分有用的信息,从而严重影响了分析识别的效率与性能。其中丢失的信息主要就是景深信息,即物体到相机的距离。有了目标的深度信息,结合其二维图像信息,就能重建目标或整个场景的三维信息,对有效提高计算机视觉中目标识别的效率和性能有重大意义。本文从深度数据入手,分析研究了三种基于不同复杂度行为的识别问题。行为的不同复杂度是针对深度数据的不同使用方式提出的,我们把深度数据分为二维静态深度数据、单点三维动态深度数据和多点三维动态深度数据三类,分别对基于这三类的行为进行识别研究。本文第一部分通过定位单帧深度信息中的目标候选区域并结合RGB图像进行确认分析来对具有深度异常值的特殊目标行为进行识别。第一部分以烟火识别为研究案例,对有深度异常值的烟、火行为提出了一种基于二维静态深度信息的烟火检测算法。相对于二维静态深度数据,三维动态深度数据主要是指有确切深度的单点或多点在时间序列上的深度数据。本文第二部分主要研究基于单点动态深度信息的行为识别,内容具体包括基于单点三维轨迹的空中手写认证与识别问题。第三部分以基于多关节点三维时间序列的人体交互行为识别问题作为具体研究案例,进行基于多点动态深度信息的行为识别研究。本文采用kinect摄像头对相关目标和场景进行深度信息的采集,系统的介绍了三类基于深度信息的不同复杂度行为的识别问题。主要研究内容与成果简介如下:(1)基于二维静态深度信息的行为识别烟火作为一种特殊的目标行为,有其特殊的物理属性,在深度图像中呈现为异常的深度值,不能被简单测量到其深度信息。利用这一特性,本文研究了基于二维静态深度异常值检测的烟火检测算法。首先对深度图像进行基于深度图像与RGB图像匹配的校正工作,再对校正后的深度图像进行平滑、去噪处理并建立相关深度信息背景模型,然后通过深度图像背景模型对烟火候选区域进行定位,结合指定区域的RGB图像进行烟火区域的进一步分析确认,最终可以在不同亮度环境下对烟与火进行检测与识别。这种算法能在黑暗环境下对烟进行成功检测,是对基于图像视频烟火识别算法的突破。(2)基于单点三维动态深度信息的行为识别。本文以空中手写作问题为研究案例,研究了基于单点三维动态深度信息的空中手写三维轨迹序列的识别问题。空中手写是一种友好的人机交互方式,本文对人的空中手写展开了两个方面的研究,分别是手写签名认证研究和手写字符识别研究。两者均利用深度信息摄像头采集深度数据来进行指尖或手前端定位,记录下连续的空中移动顺序即三维轨迹信息,然后对三维轨迹信息进行提取特征与进一步的识别分析。具体来说,认证问题通过对三维轨迹的分析识别来对用户身份进行认证,判断是否是真实用户所书写的三维轨迹。识别问题即要对三维轨迹所代表的内容进行识别,判断出用户手写的轨迹是哪个字符。对于认证问题,本文提出了五种攻击模式来验证本文提出的算法,分别让非用户人员在不同条件下模仿真实用户的签名来进行攻击实验,利用本文提出的基于动态时间规整(Dynamic Time Warping)的模板距离计算,能有效的区分出真实用户和攻击用户。对于手写识别问题,本文对0-9这10个手写数字进行了两种识别方法的研究,提出了基于距离特征向量的在线识别算法并研究了基于深度置信网络(Deep Belief Net)的离线图片识别算法。基于距离特征向量的在线识别算法,结合动态时间规整距离(DTW)计算和支持向量机(Support Vector Machine),对手写三维轨迹的在线特征,即手写轨迹的时间序列特征进行分析识别。此算法通过DTW距离计算生成距离特征向量,并以此代替样本特征向量进行分类识别训练和测试。实验表明,在训练样本数量很小的情况下此算法能有效的区分出0-9这10个手写数字,具体的训练样本规模在每类为20个时能达到99.1%的测试正确率,甚至在训练样本仅为5个的时候依然有98.1%的识别准确率。另外一方面,本文研究了一种基于深度置信网络(Deep Belief Net)的离线图片识别方法,即对用户三维手写的轨迹进行二维平面的映射,以二维图像作为输入进行深层神经网络的学习识别。实验表明,深度置信网络识别方法需要比DTW+SVM的在线识别算法多出许多训练样本才能得到较好的结果。为使数据样本时间跨度比较大,有更大的说服力,本文历时5个月共收集了6000多空中手写数字样本和2000多空中手写签名数据,并以此为基础进行实验分析。(3)基于多点三维动态深度信息的行为识别人体的行为动作能被人体的骨架点的时间序列信息很好的表征。本文以基于深度信息的人与人的交互行为识别为具体研究案例,对基于多点三维动态深度信息的交互行为识别问题展开研究。通过深度信息的匹配计算,可以得到20个人体骨架关节点的三维空间坐标信息,本文利用此骨架点数据对人体动作进行表征,进一步对人体动作进行非监督的相似度匹配,通过判断两个人的动作属于相同类别来识别发现此二人的交互行为。本文的交互行为识别研究有如下假设:人与人的交互行为产生于两人的同一种交互动作,其动作数据是相似的。另外一方面,人的动作序列由交互动作和非交互动作组成,而非交互动作作为交互动作的背景动作是周期出现的。基于这两个假设,本文首先对由周期性非交互动作和交互动作组成的人体骨架点视频段提出一种交互动作的自动定位方法,然后对交互动作进行一种非监督的识别匹配,根据相似度来判断是否存在交互行为。这种非监督的识别方法不用事先对交互动作进行学习训练,只利用距离度量来对交互动作的相似性进行分析判断。对于距离度量,本文提出一种基于邻域DTW距离的度量学习算法,对行为动作的每一维特征得到的距离进行加权组合,在所有已有的实验数据中迭代优化加权系数,找到一个通用的表示行为动作之间差异的度量形式,使得同类动作之间差异更小,不同类动作之间差异更大。迭代更新后的度量形式优化了不同特征之间的组合关系,把所有特征信息有机整合在一起,更好的刻画了行为动作之间的差异性并提高了交互动作的识别准确度。在我们收集的10类交互动作共100个视频段的实验数据中,本文提出的交互动作定位算法根据不同的设置,定位成功率可以到80%至90%,而对10类交互动作进行匹配分类实验中,基于邻域DTW距离的度量学习算法可以得到89.6%的准确率。