论文部分内容阅读
近些年,以深度学习为代表的人工智能、模式识别领域相关技术取得了许多里程碑式的突破。这不但归功于研究者们在技术上取得的突破,还很大程度上受益于高性能计算资源的商业化以及平民化,使得更多的机构与个人可以参与到人工智能相关领域的研究。 深度学习相较于传统的机器学习,由于更加受益于数据驱动,在当前信息爆炸的大数据背景下,广泛受到研究者的青睐。而卷积神经网络,作为深度神经网络的一个典型代表,已经在计算机视觉领域取得了重要的成就。本文基于卷积神经网络,针对计算机视觉领域的基础问题—视频与图像的分类问题进行了研究与探索。主要取得的研究成果如下: 1.学习并改进了深度残差网络。该网络结构作为目前效果最优的卷积神经网络的代表,在学术和工业界都有很高地位。我们通过学习与研究残差网络的前世今生,提出修改了残差支路,以使得其可以在拓展表达能力的同时不会带来反向传播上的困难。我们在图片识别任务上进行了实验,结果表明该网络结构可以取得更高的识别准确率,并且在CIFAR-10,CIFAR-100两个自然图像数据集的图像分类任务的上相比残差网络均有性能提升。 2.我们很自然地从单张图片分类问题拓展到视频分类问题。对于视频分类问题,我们有侧重地研究了视频分类中比较重要的特征聚合问题,并提出了实体竞争网络,通过可学习权重来建模时间上下文实体之间的关系并对逐帧特征的响应值进行再评估。该网络是一种特征聚合的网络,在已经得到帧级特征的前提下,所提出的方法可以产生更加优秀的视频级特征。我们在UCF101,HMDB51以及ACTIVITY200数据集的视频分类任务上均取得更优的准确率,这也验证了我们模型的有效性。