面向视频监控语义理解的神经网络结构设计

来源 :浙江大学 | 被引量 : 0次 | 上传用户:songyinming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频监控系统在公共安全、城市管理等领域发挥着重要的作用。近些年来,深度学习技术迅猛发展,深度神经网络强大的特征表达能力和端到端的训练方式成为了智能视频监控系统的极大助力。在深度学习与智能视频监控技术的结合中,如何设计有效、鲁棒和可靠的神经网络结构是其中亟待解决的核心问题。论文对监控视频中神经网络结构设计的各个方面进行了系统性的研究,涵盖对于视频中的时空语义信息和多模态语义信息进行有针对性的网络结构设计,充分挖掘、建模和融合监控视频中的丰富语义信息。论文还进一步探索了自动化的神经网络结构设计方法。在研究过程中,论文提出了一系列创新性的解决方案,通过实验验证了这些方案的有效性。论文的主要工作和贡献包括以下几个方面:1.深入研究了监控视频中时序和空间语义信息的建模和融合问题。论文研究了时空语义信息的针对性建模,分别针对目标的时序语义信息和场景的空间语义信息提出新的神经网络模型,并应用于目标轨迹预测任务上。论文进一步研究了视频中时序和空间语义信息的联合学习,提出了一种时空网络的多层次级联模型,在视频摘要任务上验证了模型的高层语义理解能力;2.深入研究了监控视频中多模态语义信息的挖掘和联合学习,在行人语义分析的上下文里提出了两个新的多模态场景语义模型,从而从监控场景图像中挖掘丰富的语义信息。论文进一步将多模态场景模型应用在人群计数任务上,以多任务联合学习的方式将这些多模态语义信息融合到深度神经网络模型里,实现密集人群数量的鲁棒估计;3.深入研究了智能视频监控的神经网络结构的自动化设计,提出一种树型神经网络结构的高效搜索方法,通过贪心策略将全局网络结构的搜索分解为局部结构的搜索问题并以迭代更新的方式高效地解决,算法搜索得到的树型结构有效地建模了属性间的相关性,适用于各类多属性预测问题。
其他文献
<正> 一次,我校三年级中文课的学生说:“我们学了三年中文了,还不知道怎么用中文说toi—let这个词。如果以后去中国,怎么问别人?”的确,“厕所”是一个十分常用的词语,但是,
会议
研究了温室智能控制系统的实现路径,提出的智能控制方案基于模糊神经网络,通过温室环境数学模型的构建实现对室内外环境因素的有效控制,并据此实现通风、喷雾和加热量的微分
税收是影响我国企业对外投资行为的重要因素之一。本文在系统总结我国对外投资税制的基础上,借鉴主要资本输出国对外投资税制的经验。提出当前应进一步完善对外投资企业所得税
黑恶势力犯罪是“世界三大犯罪灾难”之一,该问题早已引起国际社会的普遍关注。黑恶势力犯罪严重威胁着人民群众的生命、财产安全,危害着社会生活、经济秩序和基层政权的建设发
报纸
工作的压力与疲劳成为财会人的共性。“财会人员工作满意度调查”共搜集有效样本1303个,从工作环境、职业前景、工作量大小、报酬等方面,考察财会人员对工作的满意程度。
在英语学习中,介词是非常重要的一个因素。介词对于句子来说,起到连接各个成分的作用。介词在整篇文章中出现的次数比其他词都多得多,但是,对于介词如何搭配和使用,很多人还
快递从业人员的城市融入问题是当前中国电子商务和物流行业发展过程中的一个重大现实问题和理论问题。基于社会融入理论,从“经济整合”、“心理整合”、“行为整合”三个维
分析我国矿山抢险排水系统现状,指出目前矿山排水抢险系统、排水管路中存在的缺点。通过聚氨酯高压软管在矿山救援中的应用可以克服上述缺点,结合实际应用过程对软管的快速接
弓形虫可以感染多种动物和人导致人兽共患弓形虫病。猪感染弓形虫后不仅影响其自身的发育、繁殖,对养殖业发展造成一定的经济损失,若以感染猪来源的肉制品为食物,还可能威胁到其
第一章中国健康青年男性COMT基因多态性对干扰解决能力的神经调控通路【研究目的】人类的干扰解决能力受到遗传因素的影响。以往研究表明COMT基因多态性对干扰解决能力的调控