论文部分内容阅读
随着模式识别和人工智能的不断发展,人的行为分析作为计算机视觉的一个重要的研究领域取得了长足的进步。其研究从简单场景下二值图像中人物的黑白剪影发展到大范围视频里复杂的人物行为分析。其面临的挑战是在复杂大范围场景的视频中准确地识别出人的行为类型。大范围监控视频是对较广区域进行监测成像的数据,具有场景大、目标小、分辨率低、特征不明显等特点。尽可能多地利用视频图像中包含的有用信息,是提高大范围视频中人的行为分析性能的重要途径。隐条件随机场模型(HCRF)是近年来重点研究的一种能够有效利用时-空上下文信息的概率图模型。其包含的隐变量层使其本身具有丰富的表达能力,同时还具有统一对观察图像和标记中上下文信息建模的能力。因此HCRF模型是解决大范围视频中人的行为分析面临难点的有效途径。本文重点研究面向大范围监控视频中时-空上下文信息建模的隐条件随机场模型(HCRF),主要进行如下三方面的研究工作。 首先,将HCRF模型引入大范围监控视频中人的行为识别。详细分析涉及的模型构建、模型训练和模型推断等方法。利用UT-TOWER和Rooftop等典型的大范围监控视频数据库,对研究方法进行了全面地测试。通过实验对HCRF模型涉及的影响模型表述和识别能力的多种因素进行了详细分析,并同已有的性能优异的方法进行了比较。实验结果表明HCRF模型取得了不仅可比于没有利用上下文信息的SVM的结果,且优于能够利用上下文信息的HMM模型。展示了将HCRF用于大范围监控视频中人的行为识别的可行性。 其次,提出一种面向人的行为分析的l1/2正则化HCRF模型。首先分析了HCRF模型正则化训练的重要性,给出HCRF模型正则化训练的总体框架。然后以l2和l1正则化训练HCRF模型为例,分析正则化训练方法得到的HCRF模型在解决过拟合和实现模型稀疏化时的性能。在此基础上,引入l1/2正则化训练方法,提出新的面向人的行为识别的l1/2正则化HCRF模型。通过详细的实验证明,提出的l1/2正则化HCRF模型能够进一步提高稀疏性和识别性能。 最后,通过分析大范围监控视频中人的行为识别的难点发现,常见的模型训练方法可能使HCRF模型的隐含层中的节点大多表现出相似的功能。从而导致模型的冗余,降低了HCRF模型的表述能力和识别性能。为此,本文在正则化训练的基础框架中,引入模型参数的多样化分布,提出新的面向人的行为识别的多样化HCRF模型。全面的实验证实了构建模型在提高表述和识别性能方面的优势。