论文部分内容阅读
特征的表达和融合是计算机视觉算法中的两个重要部分。例如,在基于骨架的人体行为识别中,如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都主要关注时序建模和识别流程的改进,而非特征的设计。另一方面,融合不同网络的输出对于识别的精度同样能有提升。而现有的融合深度网络的方法缺乏对于不同输出分布的考虑。 本文分为两部分。在第一部分中,我们总结了近年来基于递归神经网络的人体骨架行为识别的发展脉络,并推测出使用关节点间关系的建模可以获得更好的性能。根据这种直觉,我们设计了八种几何关系特征并用一个三层的LSTM网络分别评估了其性能。进一步的实验表明基于点线距离的几何特征要比其他的特征效果好,并在四个公开数据集中均取得了当前最好的结果。此外,实验还表明,只使用一小部分的点线距离就可以达到与使用全部点线距离相近的结果;并且使用点线距离作为输入,相较于点坐标,只需要较小部分的样本作为训练数据。 在第二部分中,我们研究了常用的融合方法,发现在训练过程中不同模型之间的信息交换对于最终的结果有负面的影响。而另一方面,简单的分数平均忽略了不同分类模型输出的概率分布平滑程度不同,对结果的贡献也不尽相同。基于这两点原因,我们提出了一个平滑的分数融合的方法。该方法首先平滑各网络输出的得分,并自适应地学习出各个网络的权重。我们的模型相较于许多精心设计的LSTM网络结构要简单很多,但仍在四个广泛使用的公开数据集中均获得了当前最好的结果。此外,我们也用实验展示出模型在关节点丢失和关节点有噪声情况下的鲁棒性。