论文部分内容阅读
近年来,面对现代化城市监控系统日益增长的多媒体数据,例如图像、音频、视频等数据,如何快速且高效地处理海量数据成为当前亟待解决的问题之一。尤其是如何精确地分析来往的行人,进而快速甄别出对人民生命财产安全有危害的人和物是完善城市安防的关键。行人属性识别技术能够根据行人图像得到行人所具有的属性。然而现有的大多数行人属性识别的方法将其看作是图像的多分类任务,将属性看作是独立的部分,忽略了不同属性之间的关联性。为此,本文将行人识别任务看作是序列生成任务,充分利用属性之间的关系进行预测。特别地,为了更好地学习到行人图像与属性之间的映射关系,本文引入了注意力机制引导模型根据不同属性关注行人的不同部位,具体工作主要如下:
首先提出了一种基于图像-属性互惠引导网络的行人属性识别算法(IA2-Net)。根据行人属性的特点,可将行人属性分为局部属性和全局属性,该算法首先利用图像特征和属性特征设计了图像引导特征和属性引导特征两种引导特征,利用两种引导特征引导模型根据属性区分性地学习行人图像的特征;然后为了更好地帮助模型根据属性类型给予两种引导特征不同的权重,提出了一种融合的注意力机制;最后提出了一种新的交叉熵损失函数用于缓解行人属性不均匀的问题。通过在行人属性识别领域内两个主流数据集PETA和RAP进行的大量实验,验证了本文所提出的算法的有效性和先进性。
其次提出了一种基于多时步注意力模型的行人属性识别算法(MTA-Net)。该算法首先利用行人图像和属性构建了两种联合嵌入特征,然后与属性特征进行级联得到融合特征。融合特征能够引导模型有效学习行人属性和图像之间的映射关系,增加模型的学习能力。此外,现有的基于注意力机制的行人属性识别方法都只是利用当前时刻的属性优化图像特征,忽略了下一个时刻的属性对模型的影响。为此,本算法提出一种多时步注意力模型,能够同时利用当前时刻属性和下一个的属性优化模型。最后,为了在缓解行人属性不均匀问题的同时,增加模型对难以识别的属性的关注,提出了一种新的平衡损失函数。在PETA和RAP上的大量实验验证了该算法的有效性和先进性。
首先提出了一种基于图像-属性互惠引导网络的行人属性识别算法(IA2-Net)。根据行人属性的特点,可将行人属性分为局部属性和全局属性,该算法首先利用图像特征和属性特征设计了图像引导特征和属性引导特征两种引导特征,利用两种引导特征引导模型根据属性区分性地学习行人图像的特征;然后为了更好地帮助模型根据属性类型给予两种引导特征不同的权重,提出了一种融合的注意力机制;最后提出了一种新的交叉熵损失函数用于缓解行人属性不均匀的问题。通过在行人属性识别领域内两个主流数据集PETA和RAP进行的大量实验,验证了本文所提出的算法的有效性和先进性。
其次提出了一种基于多时步注意力模型的行人属性识别算法(MTA-Net)。该算法首先利用行人图像和属性构建了两种联合嵌入特征,然后与属性特征进行级联得到融合特征。融合特征能够引导模型有效学习行人属性和图像之间的映射关系,增加模型的学习能力。此外,现有的基于注意力机制的行人属性识别方法都只是利用当前时刻的属性优化图像特征,忽略了下一个时刻的属性对模型的影响。为此,本算法提出一种多时步注意力模型,能够同时利用当前时刻属性和下一个的属性优化模型。最后,为了在缓解行人属性不均匀问题的同时,增加模型对难以识别的属性的关注,提出了一种新的平衡损失函数。在PETA和RAP上的大量实验验证了该算法的有效性和先进性。