【摘 要】
:
随着计算机计算能力的增强与大规模有监督图像和视频公共数据集的出现,深度学习在计算机视觉的各个领域(如语义分割、分类识别和目标检测等)都取得了令人瞩目的成绩,基于视频的人体动作识别也随之取得了高速发展。在现实生活中,无论是在智能监控还是在人机交互、医疗诊断等方面,基于视频的人体动作识别都有着广泛的应用前景与潜在的经济价值。然而,由于人体动作复杂、背景环境嘈杂、摄像机视角多变等因素,人体动作识别算法的
论文部分内容阅读
随着计算机计算能力的增强与大规模有监督图像和视频公共数据集的出现,深度学习在计算机视觉的各个领域(如语义分割、分类识别和目标检测等)都取得了令人瞩目的成绩,基于视频的人体动作识别也随之取得了高速发展。在现实生活中,无论是在智能监控还是在人机交互、医疗诊断等方面,基于视频的人体动作识别都有着广泛的应用前景与潜在的经济价值。然而,由于人体动作复杂、背景环境嘈杂、摄像机视角多变等因素,人体动作识别算法的困难度也陡然增加。复杂的算法结构使得模型难以训练与部署,而人体动作的复杂性又对识别算法的泛化能力提出严峻的考验。因此,本文以人体动作识别为研究重点,并结合实际部署要求,提出一套基于视频的人体异常行为识别算法,该算法在保持算法精度、速度的同时,可以对视频进行逐人动作识别。其具体研究如下:(1)提出一种实时的行人检测算法YOLO-SNB(YOLOv3 with SECNet and Blur_Pooling)。该算法使用YOLOv3目标检测算法作为行人检测的基础网络,通过针对性的修改,显著地提升了行人检测算法的检测精度。本文中,首先针对YOLOv3所存在的“不平衡”问题,使用Focal Loss替代自信度损失以缓解空间不平衡问题;使用GIo U Loss替代均方误差损失以缓解尺度不平衡问题;通过全局前景框生成与损失加权策略,以缓解类别不平衡问题。其次通过在检测算法中嵌入注意力机制模块,缓解多层次检测算法所固有的特征尺度不一致。然后通过研究特征平移等变性对检测算法的影响,将Blur-Pooling嵌入到检测算法中,提升检测算法的检测精度与鲁棒性。最后,对YOLOSNB检测算法进行行人检测模型训练,并进行相应测试,测试结果表明,YOLO-SNB行人检测算法的检测精度为92.9m AP、检测速度为38.2FPS。(2)提出一种高效的3D卷积神经网络结构KD-SI3D(Knowledge Distillation Split Inflated 3D Convolutional Network)。本文使用3D卷积神经网络作为视频动作识别的基础模型,并通过针对性的修改,在不降低算法识别率的前提下,有效压缩了模型体积并提升了算法的识别速度。首先,针对3D卷积神经网络所存在训练参数过多、模型体积过大而导致模型部署困难的问题,本文提出使用卷积分解、卷积分离技术进行模型重构与压缩,并使用知识蒸馏初始化提升算法的识别精度。然后提出识别算法的自信度损失,以增强识别算法的泛化能力。最后对KD-SI3D网络进行算法验证,实验结果表明,本次实验所使用的测试集数据,KD-SI3D网络的识别率为95.9%,而模型体积仅有19.4M。
其他文献
随着数字媒体技术的发展,使用图像编辑软件对数字图像进行加工和修改变得越来越简单。当数字图像被人恶意篡改并加以利用,有可能会造成众多负面影响,甚至可能会影响社会的稳定,所以数字图像进行篡改检测对于图像信息安全是一个不可忽视的问题。图像篡改有多种类型,其中复制移动图像篡改是常见的图像篡改方式。传统的复制移动算法需要手动的设计特征具有一定的局限性。随着深度学习的发展,基于深度学习的图像复制移动篡改检测领
随着智能设备数量的持续增长以及新兴无线服务的迅猛发展,无线网络流量的需求量正呈指数型增长。因此,在5G甚至未来的6G通信网络中寻求新的技术以满足日益提高的通信带宽需求迫在眉睫。为提高无线网络传输速率,现今主流的研究方向有如下三个:大规模多入多出(Multiple Input Multiple Output,MIMO),超密集网络,以及毫米波通信。然而,由于配备多天线/蜂窝/基站,以及硬件设备(如射
一直以来,火灾都会对生命财产安全造成重大危害。为了有效地避免火灾造成的巨大损失,人们发展了消防事业。随着近年来科技的不断进步,消防技术也随之不断发展,越来越多的新兴技术被用到消防领域中。在消防的多个环节中,火焰探测是防火预警中最重要的环节之一,目前有多种火焰探测方法。其中,应用红外热成像仪器的检测方法因为其对温度探测的性能优异,对高温物体有明显的探测效果,目前在消防领域中获得了广泛应用。本文结合红
随着特征尺寸的不断减小,Flash存储器已经进入后摩尔时代,其发展的难度越来越高,同时短板也逐渐显现。阻变存储器(Resistive Random Access Memory,RRAM)具备高存储密度、高读写速度、低功耗、结构简单以及与CMOS兼容等诸多优点,极其可能成为下一代新型非易失性存储器。五氧化二钽(Ta2O5)凭借着其优良电学特性从众多阻变材料中脱颖而出,但是Ta2O5基RRAM(Ta2
在计算机视觉领域显著性检测是很受关注的一个研究方向,通过显著性检测算法可以得到图像的显著图,显著图中标注了原图像中每一个像素的显著值,显著值代表对应像素的显著程度,相关算法能通过显著图快速识别图像的显著区域,因此显著图可以应用在图像压缩,场景分类,图像检索等诸多领域,用以降低相关算法的计算量。传统的显著性检测算法曾通过计算图像的全局对比度或者局部对比度来获取显著图,这类算法往往会与图像的背景先验知
随着现代社会对科研投入的日益增加,每年产生的论文数量越来越多,但英文论文写作对于非英文母语者是一件十分困难的事。写作者不仅需要清晰明确地表达实验过程与结果,还得正确地使用英文词汇进行论述。而近年来,自然语言生成技术发展迅速,在理论和实际应用上都取得了长足进步。因此,本文研究将成熟的自然语言生成技术应用于英文论文写作中,致力于提高写作效率。本文首先对系统的实现过程中存在问题进行分析,并介绍了解决问题
椭圆是现实世界最常见的形状之一,因此椭圆检测算法是现代计算机视觉应用程序的重要组成部分。椭圆检测算法已经被广泛应用于细胞检测,工件检测,交通标志检测,机器人平台对象跟踪等领域。到目前为止,人们还没有提出一种能够高效准确地检测小椭圆,扁椭圆,嵌套椭圆的算法。现有椭圆检测方法分为传统椭圆检测方法和基于深度学习的椭圆检测方法。传统方法以椭圆边缘点为核心进行椭圆检测,但是小椭圆的像素比较少,属于不同嵌套椭
随着机器视觉技术的快速发展,CMOS图像传感器以及图像采集系统的应用变得越来越重要。目前,CMOS图像传感器正朝着高分辨率、高帧率以及高动态范围的方向发展。其中,高动态范围图像将多张曝光时间不同的图像信息通过算法合成为一张高动态的图像,使得获取的图像可以保留更多的细节信息,所以研究高动态范围的图像获取有着很重要的现实意义。本论文使用FPGA芯片作为核心控制器向CMOS图像传感器发送时序控制信号来控
医学知识库在现代生物医学领域的作用越来越重要,在大数据时代可以从知识库中发掘出更多隐含知识,服务于智慧医疗等领域。特别是神经退行性疾病,传统模式的新药研发、治疗模式已陷入瓶颈期,从海量生物医学文献中识别相关实体,并利用深度学习、关系抽取、自然语言处理等技术构建各实体和关系的神经退行性疾病知识库,能够辅助药物研究员进行新药研发,疾病机理研究和防治策略等,对生物医学领域的研究具有现实的实用意义,其中高
偏远地区的医疗资源紧缺,很多早期病变很难被发现。宫颈癌是最常见的妇科恶性肿瘤之一,HPV疫苗是一种很好的预防手段,但是,HPV疫苗多在实验环境使用,且价格昂贵。现阶段宫颈癌筛查主要依靠人工阅片,但是宫颈细胞形态复杂造成专业人员稀缺,检测过程特别容易产生假阳性与假阴性的误诊,对阅片师的专业素养和工作强度均提出了很高要求。宫颈细胞的数量与尺寸可以作为宫颈癌检测的辅助手段,流式细胞术是标准的细胞检测手段