静态图像行为识别

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:bluebirdmengmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0技术的不断成熟,以及人工智能的飞速发展,计算机对于图片的理解程度逐渐趋于语义层面,对图像内容的识别和分类的研究也不再仅限于传统的底层特征。静态图像行为识别作为图像识别领域新兴的研究热点之一,旨在识别单张图像中所描述的行为内容,是一个充满挑战性和研究价值的课题,同时也具有广泛的应用场景。本文在深入研究静态图像行为识别的国内外研究现状的基础上,发现现有的算法中通常是利用指定的某一种线索或者结合指定的两种线索用于识别图像中的行为,忽视了指定的线索对识别所有类别的行为不具备适用性的缺点。本文针对这一问题,提出主要线索和辅助线索相结合的方法。指定人体区域为主要线索,设计“主+辅”网络模型,确定每张图像中的辅助区域作为辅助线索,并将两者相结合共同用于识别图像中的行为。人体区域的确定通过人体检测来实现。本文在经典的HOG特征+SVM分类器的人体检测方法的基础上进行改进,分析HOG特征的具体提取方法,将决策函数中特征向量的权重值转化为block的权重值,并设置合理的block权重值阈值,筛选有效的block,剔除无效的block,从而达到对传统HOG特征降维,提高检测效率的目的。辅助区域的确定和最后的行为识别是通过“主+辅”网络模型实现的,该网络是在Fast-RCNN网络的基础上改造设计的。首先基于MIL的思想,引入候选辅助区域,并通过设置候选区域与人体区域的重叠率范围来获得。在Fast-RCNN的第五个卷积层之后将网络分为两个分支,分别对人体区域和候选辅助区域特征图进行ROI池化操作,通过特征提取和计算判定每个候选辅助区域的行为识别分数,选取分数最高的为辅助区域。将选取到的辅助区域与人体区域相结合,综合两者对应的行为判定分数结果作为最后的行为判定分数,并对分数进行归一化从而得到一张图片属于每种行为的概率。本文通过Stanford Action 40 Dataset和PASCAL VOC Action两个常用的静态图像行为识别的数据集来验证过本文提出的方法的有效性。实验结果表明,该方法在两个数据集上的mAP值分别为89.55%和90.1%。为了验证该方法中指定人体区域作为主要线索的合理性,采用控制变量法,设计“辅+辅”网络模型,并将其与本文的“主+辅”网络模型进行比较,实验结果表明,人体区域是最合理的主要线索。
其他文献
随着现代工业设备的日益复杂,故障检测与诊断(FDD)技术可以有效地提高系统的安全性和可靠性,因此受到越来越多的关注。目前,关于离散系统的状态和故障估计问题的研究还不够充分。本文将在前人的工作基础上,研究离散线性变参数(LPV)系统状态和故障的估计问题。主要研究工作如下:针对含有执行器故障和传感器故障的离散LPV系统,提出了一种同时估计系统状态、执行器和传感器故障的观测器设计方法。该方法能够有效地抑
癌症严重危害人类健康,化疗是目前治疗癌症最有效的手段之一。化疗药物诱发的神经痛是癌症化疗过程中出现的最常见、最严重的并发症之一,主要症状包括机械痛敏、冷痛觉异常、感觉缺失等,严重影响癌症患者的生活质量,并且可能导致化疗的中断。然而目前临床上尚无明确有效的预防治疗手段,因此急需开发新型镇痛药物。烟碱型乙酰胆碱受体(nAChRs)是一类广泛分布于中枢、外周神经系统的配体门控离子通道,与多种疾病的发生有
CT成像技术是放射科医生进行临床医学影像辅助诊断的重要手段,具有图像对比度和分辨率高的优势。但是,由于组织病变、支气管以及胸膜附近异常等因素的干扰,进行胸腹部检查时需要准确分割相关解剖结构。本文针对CT图像中肺实质和肝脏血管的分割问题,提出改进算法以提高二者的检测与分割的准确性。主要工作为:(1)提出一种融合Surfacelet变换与脉冲耦合神经网络(PCNN)的肺实质分割算法。首先,通过Surf
聚类分析是一种典型的无监督学习问题。与有监督学习相比,聚类分析适用于在没有足够的先验知识的问题,分析研究对象间的相似性模式,从而将无标记的物理对象或者抽象对象划分
当今社会科技发展飞速,自动化和智能化已逐渐渗透到各行各业,并成为发展的主流方向。在航海方面,常面对危险或人力不可为的任务,因此相关的自动化、智能化技术发展备受关注。
随着信息技术的快速发展,作为其支柱之一的传感技术由于承载着现实世界中信息提取的任务,发展势头迅猛。温度传感器已经广泛应用到工业生产、医疗诊断、农业监测、日常生活等
近年来,互联网的社会属性逐渐超越工具理性,成为制约乃至型构社会基本关系网络和组织形态的一个重要因素。日益发展的自媒体技术和多元化的表达渠道,在拓宽民众言论表达的同时,也导致网络诽谤犯罪行为日渐猖獗,使得对网络言论秩序进行有效治理成为一个亟待解决的社会问题。《关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》(以下简称《诽谤犯罪解释》)等相关司法解释试图通过承认片面共犯和帮助行为正犯化的
服装一直占据电子商务网络零售业的很大比重,现阶段服装展示手段主要以二维图像为主。这种传统的展示方法虽然能够满足基本的展示需求,但与三维展示效果相比,始终缺少真实感,
模糊集值信息系统是指其信息值都为模糊集的信息系统.同态是研究它们之间关系的一种数学工具.本文研究了模糊集值信息系统及其基于数据压缩的同态.第一章,给出了模糊集值信息
为提高计算机仿真水墨扩散真实性的问题,本文提出了基于逻辑数据Petri网的水墨扩散算法,建立水墨扩散仿真模型,并在宣纸模型上模拟水墨扩散的动态效果。本文首先从计算机仿真水墨扩散问题的研究背景开始,介绍了水墨扩散计算机仿真的国内外研究现状。其次对本文所用Petri网的相关理论进行介绍,包括逻辑Petri网和逻辑数据Petri网等理论。然后分析水墨扩散的方法和条件,根据水墨扩散条件建立宣纸模型,并在宣