论文部分内容阅读
随着科学技术的不断突破与发展以及各行业领域对安全措施的要求的不断增长,视频监控系统的应用日益广泛,特别是智能视频监控的研究越来越受到人们的重视。视频监控能让采集动态形式移动视频图像,通过专业级监控产品,以可移动方式进行接收。视频监控主要环节包括前端获取、图像传输、终端成像提取、和存储、控制、显示。视频监控一般多用于远程监控,也称远程网络监控,是指监控者不在监控摄像头或其他摄像采集设备周围,通过网络远距离查看现场监控视频的场景,这样可以实现即使监控者不在现场,也能实时查看现场发生的情况的需求。监控系统体积较小且工作相对稳定,将人们从枯燥的工作中解放出来,不会产生视觉疲劳等生理问题。视频监控被用于生活的各个方面并为人们的生活带来便利。例如交通监控可以大范围监控路况,从而使得交警在事故发生后可以第一时间接到通知并抵达现场;安装在超市银行等的视频监控系统可以保证消费者的合法权益和人身安全。然而前面所叙述的传统的视频监控并不能将人完全解放出来,还需要对视频中运动目标的行为进行人工分析.如果在监控的同时,系统也可以对目标的行为自动分析,亦即实现智能监控,则可以节约更多的人力,财力和物力,并在减轻人们工作负担的同时,更大限度的保障经济效益。智能视频监控的核心技术是人体行为识别,亦即对目标进行识别和分析.这些识别和分析可分为姿态识别、行为识别和事件分析,以期达到对目标正在做什么,将要做什么进行分析和预测。人体行为分析主要通过提取行为特征,并对特征进行分类来实现。其中要提取的特征包括帧间、帧内特征,矩形矩特征和运动速度特征。对特征进行分类的方法包括运用融合扩展HOG特征和CLBP特征的多特征人体行为识别方法、背景减除法、差分法以及光流法。人体行为识别的技术有很多种,现如今主流的基于机器学习的人体行为识别的研究方法是深度学习方法,此方法主要用于解决视频中行为识别/动作识别的问题。其解决思路有两大类,一是以抽取并分类时空特征为目的的视频识别方法;二是以提取骨架信息进行再训练为目的的姿态估计方法,包括two-stream(双流)方法,C3D方法以及CNN-LSTM方法。由于上述的两大类方法都无法将行为识别进行多标签分类,从而导致Softmax回归法无法有效实现,使得在处理多分类任务时很难将视频人物图像判定为某类的特征进行相加,因此也无法特征转化为判定,导致检测分析进度较慢甚至失灵。同时此方法也无法在系统训练前将数据集随机打乱,因此无法确保不同回合输入的模型数据均存在差异,可能会导致程序crash训练重复。在这一过程中模型微调(fine-tune)无法顺利进行,模型网络初始化受阻,导致系统学习率较低,不同层学习率设置微调将无法影响网络模型,导致模型泛化能力无法有效实现,前向计算缺乏训练收敛过程,导致正负样本、Top-1/5或混淆矩阵准确率大大降低。本文在深度学习的基础上对现行的研究方法模型进行优化,提出基于深度学习的优化型算法模式,从而提升特征提取的准确度及特征分析。随后实施目标形状、时空和区域特征的描述与提取。通过融合单一目标多个局部特征,从而生成新型的、升级的特征变量。使得改进后的特征提取方法在时空兴趣点、特征提取准确度以及特征分析方面均有较大突破和进展。将描述模型对问题的分类精度不断扩大,降低分类结果与真实值的偏差,以达到全局最优或局部最优。