论文部分内容阅读
自然场景理解是现在计算机视觉领域的一个热点研究方向,其目的是识别出自然图像中的对象并给出对象的位置等属性信息。人们发现图像中通常会出现层次结构,即图像中的复杂对象是由一系列的简单部分组成,而这些简单部分是由更简单的小区域组成,这种一层一层的组成就构成了图像的层次结构。该结构不仅能帮助我们识别对象,还能直观地解释各个小区域是如何作用组合成整个对象的。本文方法就是利用图像中的层次结构提出的。图像首先被分割成多个小区域的集合,然后通过不断合并相邻的区域对,并为合并后的超级区域预测可能类别,直到合并出图像中的各个对象为止。最终得到一个合并森林,该森林由多棵树组成,通常每棵树对应图像中的一个对象。此时每棵树都有其可能类别,只需从其可能类别中找出最可能的类别即可,构成树结构的所有小区域所在图像中的位置即为该对象位置。本文方法可以看成为图像语义理解而设计的一种深度学习方法。具体的工作如下:(1)设计了一个机器学习模型来描述区域对的合并过程,包括如何计算区域对分数、设定合并条件、预测合并后超级区域的类别等等。(2)由于图像中相邻区域间的合并有多种可能,直接搜索计算是不可行的,我们设计了一种贪心推理方法来求解最优的合并森林。(3)对于模型中的参数学习,我们采用了最大间隔的方法。(4)采用分层区域的聚类的方法来初始化模型参数。通过对各个类别的不同大小的区域特征进行分层聚类,取聚类中心作为参数的初始值,这些初始值不仅能够获取到各个类别区域在不同阶段的一般性特征,还能帮助模型快速收敛到极值。(5)在特征提取阶段,通过利用区域内像素的特征来计算区域的特征。我们考虑了三种不同的计算方法来获取区域特征,并分别对模型进行学习和训练,进而对这三套特征的模型测试结果进行比较和分析。