论文部分内容阅读
由于摄像机角度、背景、人群密度分布和遮挡的限制,传统的基于底层视觉特征的视频人群计数方法往往难以实现理想的效果。利用视频的时空特征和卷积—池化方法形成高层的视觉特征,采用局部特征聚合描述符进行量化和码本计算,实现了对视频人群信息的精准描述;该方法充分利用了视频的运动和外观信息,基于卷积神经网络和池化方法提升了对视频本征属性和特征的描述能力。实验结果表明,所提方法比传统的视频人群计数方法具有更高的精度和更好的顽健性。