论文部分内容阅读
随着互联网的迅猛发展,当前世界不断涌现出各种新兴的社交媒体,例如:Facebook,Flickr,Twitter,Instagram等等。而伴随着这些新的网络媒体的出现,各种图像和视频媒体每天以数以亿记的数量产生,不断地被传播,分享和编辑。如何基于这些图像和视频更有效和快速地理解及检索就成了一个值得研究和有趣的课题。在本文中我们分别对图像和视频的理解和检索进行了讨论,使之能更有效地服务于信息检索引擎的检索和理解。在图像的重排序部分,我们提出了一种重排序图像检索结果的新方法,它可以被适用到对象类和场景类中。我们首先介绍了两种方法:范本模型和显著图模型。范本模式是自上而下的方法,该方法考虑同一个类中图像的感兴趣区域(ROI),它包含很多类似的显著特征。这些显著特征可以被用来训练模型,并重新排名查询的测试图片。另一方面,显著图模型是一个自底向上的方法,该方法采用赢者通吃和返回抑制机制来找出梯度下降显著的区块,其显著图像可以用来进行重排序。在实验中,我们观察到的范本模型在对象类中表现良好,而显著图模型在场景类更好,两个方法专注于不同的方面。最后,我们提出了一个方法ExSM模型,结合了范本模型和显著图模型的优势。ExSM在场景类和对象类中都表现得很好。在视频理解部分,我们提出了一种方法,它结合了权重模板和时空模板来识别人类的动作。首先,考虑到身体的不同部位在不同的行为动作中发挥着截然不同的重要角色。所以在人类动作的识别中,我们建议采用于基于光流局部描述符的权重不同的动作识别模板。然后,我们提出了时空模板,由运动能量图像(MEI)和运动历史图像(MHI)组成,包含了全局描述符和时间信息的描述符。考虑到局部描述符,全局描述符与时间信息,我们融合了权重模板和时空模板来进行识别动作。实验结果表明,融合的模板可以有效地从不同的方面识别人的动作。