复杂场景下的人群计数算法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:maomao1983520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的飞速发展,大型集会和游行活动的增多,活动中频繁的践踏事件造成大量人员伤亡,因此人群计数的研究成为近几年来计算机视觉领域的主要研究方向之一。本文通过深入分析卷积神经网络中的优势、充分考虑特征层内部之间的联系以及从分群分布随机的角度出发,提出以下三种不同的人群计数网络结构模型。(1)提出基于特征自学习多尺度残差生成对抗人群计数算法(Generative Adversarial Network Crowd Counting Algorithm based on Feature Self-learning Multi-scale Residual,FSLGAN)。本文详细分析了FSLGAN网络模型不同部分对人群计数结果的影响,该方法首先利用自适应核生成各个数据集的真实密度图;其次为了适应多尺度,将网络分成两个子网络,各自提取不同尺度的特征,利用局部与全局互补的功能,提供更具辨别力的语义特征;然后在两个子网络的密度图生成阶段加入特征自学习模块,降低了图像因光照、形变、遮挡等因素变化的影响,提升了模型在密度图生成阶段有用特征的获取;最后为了抑制子网络之间的误差,加入了多尺度残差损失。通过在几个常见的人群数据集的大量实验表明本文提出的FSLGAN的有效性,且具有良好的鲁棒性。(2)提出基于基于通道空间注意力特征融合人群计数算法(Crowd Counting Algorithm based on Channel Space Attention Feature Fusion,CSAN)。由于人群数据集的分布多样性,卷积神经网络对于不同的尺度采用完全相同的处理方式提取的特征存在限制,本文针对密集场景提出的全新的CSAN模型。该网络主要有三个部分组成,首先使用VGG网络的前10层作为前端网络,网络的第二部分是由通道空间注意力模块组成,其中通道注意力负责提取特征层通道之间的有用特征,空间注意力模块负责通道空间上特征提取,网络的第三部分采用6层空洞卷积以此增加网络的感受野。在人群数据集中通过实验证明了本文提出的CSAN的有效性,且具有极佳的表现。(3)提出基于基于混合损失通道空间注意力特征融合人群计数算法(Crowd Counting Algorithm based on the Spatial Attention Feature Fusion of Mixed Loss Channel,HLCSAN)。由于相机拍摄角度的问题导致很多图片中的人群分布极不均匀,很多方法试图通过采用多列或者多分支网络来解决此问题,但由于受列数本身或者分支数的限制,提取到的特征并不能表张图片中人群中离群点的能力。本文提出网络在CSAN的基础上,在网络前期加入迁移学习参数,并且在网络训练阶段使用了全新的混合损失,该损失函数是由均方误差损失和绝对误差损失共同组成的损失,能够有效的解决离群点的问题。在不同数基础据集上的实验结果表明本文提出的HLCSAN的有效性。综上所述,本文提出了基于深度学习的网络模型:FSLGAN,CSAN,和HLCSAN,且对应不同章节提出的方法都有一定的提升,CSAN相较于FSLGAN不仅仅在精度上取得了较大的提升而且大大缩短了训练周期,HLCSAN相较于CSAN和FSLGAN取得了最低的计算误差,并且通过大量实验证明了它们具有实际应用价值。
其他文献
随着中国传统文化逐渐走向世界,在数字化平台传播、宣传、弘扬中国非物质文化遗产也成为了学界和产业界共同努力的目标。因此,以中国传统文化、传统艺术、非遗文化为主题的应用程序层出不穷。而江苏宜兴的传统紫砂文化在数字化平台上一直处于发展的初期,其界面以图文介绍和商品交易为主要功能,界面的视觉设计也显得相对简单。在以文化传播为主要功能的应用程序案例的借鉴下,在图形化界面和动画交互界面的发展现状下,论文试图通
专利文本记录了大量的科技成果信息,受到了人们的高度关注。随着互联网的快速发展,专利文本数量不断增多,如何从纷繁冗杂的专利文本中高效地抽取其中关键特征一直都是自然语言处理的基础研究问题。然而,现有的面向专利文本的特征抽取还未取得十分令人满意的效果,对专利文本特征抽取的准确度需进一步提高。针对以上问题,论文提出一种无监督的融入公共知识的TextRank专利关键词提取模型,该模型有效地利用了先验公共知识
随着我国汽车制造和智能交通领域的发展,汽车智能化水平逐年提升。在汽车价格平民化与道路条件标准化的背景下,汽车已成为人们工作和生活中的重要工具。然而,汽车的大量使用也产生了一系列的负面影响和安全隐患,例如上下班高峰严重的交通堵塞,频发的交通事故等。如何通过安全辅助驾驶系统预防和减少交通事故的发生成为了学界日益关注的核心焦点。其中,基于双目视觉的障碍距离检测和车道线检测是该领域的热点问题,本文设计开发
伴随着科技的进步与计算机视觉技术的飞速发展,基于深度学习的目标检测技术得到了越来越广泛的应用,在各个领域都展现出蓬勃生机。与此同时,也出现了越来越多样化的数据形式,这给目标检测任务带来了难点。可见光单模态数据在部分特殊情况下提供的信息不够充足,基于可见光单模态图像的目标检测任务可能会出现准确率下降的问题,然而越来越多样化的数据形式给这个问题带来了转机。使得可以通过对不同模态的图像数据进行融合的方式
问答系统在生活与工业中有着广泛的应用,比如智能客服、智能音箱等。但目前的问答系统大都是静态的,一旦训练并部署后,无法再进行知识更新,用户与问答系统的交互语料也没有得到充分利用。即使获得了交互预料,但由于深度神经网络的灾难性遗忘特性,直接使用获取的新交互语料数据训练模型,会导致模型在之前数据上的表现变差。针对以上问题,本文构建了持续学习问答系统框架,处理并存储用户交互信息,并提出了持续学习的关系抽取
PCB(Printed Circuit Board,印刷电路板)是电子产品的核心部件,广泛应用于现代社会的各类行业,市场需求量广大。PCB上元器件的缺陷检测是PCB生产的必经环节,而电子元件小型化、高集成化的趋势以及SMT(Surface Mounting Technology,表面贴装技术)的发展使得PCB上贴装的元件密度更大尺寸更小,传统人工检查的方式已无法满足工业上对于检测精度和速度的要求。
随着中国影响力的扩大和中华文化的传播,全球各地出现“汉语热”的风潮,越来越多的国际友人开始学习汉语。其中,来华留学生对于汉语学习有着必然需求,语言是交流的基础,而在实际生活中,来华留学生存在因语言不通、交流障碍而导致的留学生活体验差等问题。留学生承担着传播中华文化,扩大中国影响力的作用,因此,留学生汉语学习体验需要设计师的深入研究和实践。在本课题以情境认知理论为理论基础,首先对情境认知理论和用户体
不同的线条样式能传递不同的情感,探究线条及其衍生形式的情感表达模型能够揭示影响情感表达的根本因素,发展更多情感表示形式,并促进情感表达软件的开发与人工智能对不同表达形式的情感识别。本文的工作分为以下四个方面:1.探究线条不同样式与情感之间的映射关系。为了探究不同样式线条的情感表达,编写程序创建了87种样式的静态水平线条,采用27个情感效价词汇与2个情感唤醒度词汇,招募测试者进行线上测试,为每种样式
视频监控是“天网”系统的重要组成部分,也是近年来治安防护水平提高的重要推动力之一。随着视频监控设备的普及率逐年上升,监控系统智能化的需求也日益提升。目前,国内大多数的视频监控系统都需要人工值守,安排监控人员24小时轮班来实现监管。通常,每个监管人员需要同时监控多个显示屏,存在效率低、抗干扰能力差、容易受监管人员主观意识影响等问题。随着科研人员对图像处理、视频分析、行为识别等技术的研究越发深入,智能
随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的