基于视频和骨架数据的行为识别算法研究

来源 :上海工程技术大学 | 被引量 : 1次 | 上传用户:clhhjq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别技术对计算机视觉的发展起到至关重要的作用。在最近的研究中,由于数据集规模的扩大,基于深度学习的行为识别技术逐渐取代了传统的机器学习算法。目前行为识别任务中采用的主流算法主要包括双流卷积网络、长短期记忆网络、图卷积网络、三维卷积网络。本文分析了相关行为识别算法的优缺点。针对这些缺点,本文先后改进了基于骨架数据的行为识别算法和基于RGB视频数据的行为识别算法。最后提出多模态融合和一种时域特征增强的方法。本文提出的模型保留了骨架数据与视频数据各自的优点,提高了行为识别算法分类正确率。其主要工作和创新点如下。(1)基于骨架数据的行为识别方法对人的外观和光照变化具有较强的鲁棒性,但多数研究成果中忽略了骨架数据本身包含的高阶特征。针对该问题,本文提出了多流自适应图卷积神经网络模型。该方法从骨架数据中提取高阶时空特征,如速度特征、加速度特征和三维关节之间的相对距离特征等。本文提出了多流特征融合的方法将高阶特征融合。实验表明本文提出的模型在两个大规模数据集NTU-RGBD和NTURGBD-120上达到了最优效果。此外,本文提出时域特征增强的方法,与其他单流特征的方法相比较,分类准确率最高。最后,本文提出了轻量级的图卷积神经网络用于学习二维骨架数据,在正确率损失小于1%的情况下,训练速度能够提升40%。(2)基于RGB数据的双流神经网络方法在行为识别任务中使用广泛,但在特殊条件下,光流法将失去本身优势。为验证光照变化对光流法的影响,本文构造出有亮度变化噪声的数据集,并使用该数据集证明了在光照强度变化下,光流法将失效。本文提出分解三维卷积核,同时添加大型数据集的预训练模型的方法进行训练,实验结果表明分解三维卷积核和添加预训练模型的方法能够提升网络分类正确率。最后本文提出时域特征增强网络用于学习图像序列中的时间维度特征。本文提出的方法在HMDB51数据集上,分类正确率提升了4.2%。在NTU-RGBD-16数据集的X-Sub和X-View两个评估标准上,分类正确率分别提升了5.7%和5.1%。(3)基于骨架的数据缺失图像信息,而基于RGB视频的数据因图像信息过多而导致学习到的特征没有针对性。针对各自数据的缺陷,本文提出融合骨架数据与RGB视频数据的方法,该方法将基于两种数据模态的分类结果合并。新方法中的双流模型包含了基于骨架信息的时空图卷积模型和基于图像信息的(2+1)D卷积神经网络模型。本文使用NTU-RGBD骨架数据集中易错的16种行为类别,构造出NTU-RGBD-16骨架数据集和RGB数据集。并在这两种模态的数据上,验证新双流模型的有效性。实验结果表明,骨架特征和图像特征的作用是互补的,最终分类准确率有明显提高。
其他文献
近些年来,伴随着计算机和现代控制技术的快速发展,许多研究学者将目光投向多智能体系统的协调控制领域,无数研究成果已经应用于无人机编队、北斗卫星导航系统、机器人编队、无线传感器网络和智能交通等诸多领域。多智能体系统的核心是一致性,其实质是通过智能体之间的本地通信来设计有效的一致性控制协议,以便在一致性控制协议的作用下,系统中所有智能体的状态随时间逐渐达到一个公共值。在实际的应用中,智能体是通过嵌入式微
学位
在经济全球化的背景下,企业的竞争对手从地区和国家扩展到世界各地,竞争环境日益激烈,高效成熟的营运资金管理模式对企业实现利润最大化和保持竞争优势的目标有着举足轻重的意义。面对经济新常态下客户驱动型企业的需求,侧重于把握单一项目的传统营运资金管理模式逐渐式微,价值链视角下的营运资金管理将研究重点扩展到财务之外的具体经营业务上,研究如何把握价值链上各环节帮助企业提高营运资金管理效果,以实现动态平衡。在当
学位
随着科技的迅猛发展和制造工艺的进步,汽车行业在舒适性和安全性等方面发生了巨大的转变。电动助力转向系统(Electric Power Steering System,EPS)是转向辅助系统的重要组成部分,它决定驾驶员在驾驶汽车过程中的舒适性和安全性,在国内外市场上具有其独特的优势和广泛的前景,现已经成为技术研究的热点。本文主要研究EPS系统的动力学模型、助力特性曲线、基本助力控制策略及回正阻尼控制策
学位
固态变压器除了能完成传统变压器的电压变换功能外,还拥有功率密度高,接口灵活多样,高智能可控等优势,被广泛应用于智能电网,轨道牵引系统等领域。本文主要研究固态变压器中的直流变换模块,分别从拓扑和控制策略两方面对其进行研究分析,在此基础上提出采用一种蚁狮算法整定直流变换器分数阶PIλDμ控制器的方法,提高了系统动态性能,主要研究内容如下:首先研究固态变压器中的直流变换器拓扑。本文研究了固态变压器原理,
学位
近些年随着信息网络的飞速发展,以大数据和深度学习为标志的信息时代已经到来。网络用户数量急剧增长,数据也呈现出爆炸性增长的趋势。在这些的数据中,80%的数据又是以文本形式存在。它们蕴含着巨大的商业价值和科研价值,如何从这些文本数据中挖掘有价值的信息,是一个热门研究话题,由此文本分类技术得到科研人员的广泛关注。本文主要研究文本分类问题,对一些算法的不足提出新的思路,以提高文本分类的效果,主要的工作有如
学位
随着互联网经济的快速发展,各行各业对于高学历人才的需求达到了井喷式的增长以及在各个高校对于研究生的扩招的基础上,引发了“考研热”现象。市场的需求孕育出了不同的考研公司。但是,伴随着行业规模,业务区分等不同因素驱动下,导致各个考研辅导机构在商业模式的选择上也截然不同。从管理角度而言,只有深刻理解机构/企业的商业模式,才能真正全面理解公司的战略,为企业盈利给出合适的建议。本文通过系统学习和梳理国内外商
学位
在城商行近30年迅猛发展后,截止目前已经具备了一定程度的资产规模,即使银行业全体资产增速有所放缓,但是城市商业银行依然保持着稳健增长的态势。以Q城市商业银行为例,市值已破110亿元,成为当地新三板企业榜首。但是截止2019年6月,Q城市商业银行异地分行贷款不良率已经达到当地的4倍之多,贷款恶化之势难抑。银行不良资产的产生是由自身风险引起的,商业银行的内控体制是防备自身风险的第一道防线,而对于商业银
学位
在GNSS推动了时空信息获取技术的发展这个背景下,高精度GNSS定位成为了未来的发展重心。对流层延迟误差一直都是GNSS定位精度获得再次提升的绊脚石,模型改正法是其当下使用最为频繁的解决方法,但精确程度还有一定的上升空间。对研究内容进行调研后,发现当前行业内大多倾向于ZTD经验模型的构建,然而传统经验模型需要海量网格值,这需要性能较好的设施,提高了模型使用的难度值。在机器学习逐步发展到时间序列分析
学位
地震发生后将产生纵波(P)、横波(S)两种类型的地震波,其中纵波传播速度大于横波传播速度,而横波对地表造成的破坏远大于纵波,因此当地震发生到破坏性地震波到来之前存在着时间差。地震烈度是衡量地震对震源周围地表造成破坏的程度。由于地震P波初始信息(加速度、速度)与最大地震烈度之间存在着映射关系,因此在P、S时间差内,利用震源地周围观测台站观测到得P波初始信息对最大地震烈度进行预测,并先于破坏性地震S波
学位
随着国家经济的发展和新高考改革制度的推进,面对逐年增加的升学和就业压力,家长对教育的重视程度得到提升。我国K12在线教育行业得到了快速的发展,更多企业投身该行业之中,市场竞争十分激烈。为了保证该行业中企业的生存和发展,需要用精准营销的理论对企业营销策略进行优化。具体做法包括,对客户信息进行整合分析,挖掘并满足不同类型客户的个性化需求,在提升营销效率和用户满意度的同时降低营销成本,从而提升企业竞争力
学位