面向视觉分析任务的模型性能优化研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:mnbvc1c2c3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉分析在当前的人工智能领域中具有非常重要的研究价值。它主要包括图像和视频领域的相关研究任务,例如分类、检测、分割和动作识别等。这些视觉任务的研究在现实世界中有着非常重要的应用价值,例如人脸识别,自动驾驶,视觉问答,行为分析等。在当前的机器学习模型研究中,模型性能一直都是研究人员衡量模型好坏的主要指标之一。尽管机器学习算法已经在各种视觉分析任务中取得了非常好的性能,但在相应的模型设计中仍然存在如下挑战:(1)机器学习模型的鲁棒性差,即模型对数据集中包含的噪声过于敏感,抗噪能力弱,往往较小的数据噪声也会导致模型失效;(2)深度学习模型的通用性不足,即在视觉任务中,模型对多任务的自适应能力差,针对上游任务(例如图像的识别与分类)设计的模型往往在下游任务(例如目标检测、语义分割和实例分割等)上的表现不佳;(3)深度学习模型的自动化设计程度低,即当前模型的自动化设计计算量大、应用局限明显,导致其难以满足激增的应用场景需求(如视频领域)。针对上述问题,本论文的主要研究内容和贡献如下:(1)针对图像数据集中特征维度和视图维度的噪声导致模型鲁棒性较差的问题,本论文以谱聚类算法为例对传统机器学习模型的鲁棒性进行了研究。具体的研究内容如下:1)针对图像数据在特征维度上广泛存在的噪声和信息冗余导致模型鲁棒性差的问题,本论文提出了一个基于本征子空间学习的单视图谱聚类算法以提升模型的鲁棒性。它首先通过一个行稀疏变换矩阵将高维数据映射到一个低维子空间当中,然后再构建一个具有本征子空间的亲和图。行稀疏变换矩阵的使用使得本论文的方法可以在特征维度有效的抑制噪声和异常值对模型性能的影响。本论文在包含噪声的合成数据集上验证提出方法的高鲁棒性,提出的方法比相关的聚类方法的性能高47%。并且在六个公开的数据集上同其它方法相比,本论文的方法的聚类精度平均提升近5%。2)针对多视图数据集中视图质量不一致导致一致性图学习易受视图中噪声干扰的问题,本论文提出了一个基于视图质量的自动加权多视图谱聚类算法,以提升模型的鲁棒性。它通过使用1范数度量每个视图与一致性图之间的距离从而自适应地为不同的视图分配相应的权重,以抑制视图维度的噪声。在鲁棒性评估实验中,与同期发表的其它方法相比,提出的方法在评估指标NMI上的性能增益高达498.55%。(2)针对在视觉上下游任务中模型的通用性挑战,本论文提出了一个基于动态多尺度窗口的Vi T模型。该模型通过设计一个具有动态多尺度的窗口自注意力模块来解决上下游任务对信息尺度要求不一致的问题,从而提升模型对上下游任务的兼容性和通用性。本论文在一个上游任务图像分类数据集以及两个下游任务数据集上验证了提出方法的通用性。相关的实验结果表明该方法可以很好的适应上下游的视觉任务。和Swin T相比,该方法在上游任务(即图像分类)上提升0.7%,在下游任务(即图像分割、目标检测和实例分割)上平均提升1.1%。(3)针对视频任务中深度学习模型手动设计难度大、效率低的问题,本论文提出了一个面向复杂动作识别的时间卷积神经架构搜索方法。该方法将3D卷积在时间空间维度上进行了显式的分离,通过为视频任务定制一个在时间维度上的搜索空间进行计算量的压缩,从而成功地将神经架构搜索方法引入到了计算密集型的长视频的任务当中。本论文在三个公开的长视频动作识别数据集上验证了提出方法的有效性。实验结果表明该方法可以在视频领域实现了有效的模型自动化设计,和Timeception相比在三个公开数据集上,该方法平均提升近2.2%。
其他文献
针对油气勘测中电类地震波勘探检波仪器耐高温性能差、体积较大、级数受限等难点问题,本论文提出了基于包层型光纤布拉格光栅(Fiber Bragg Grating,FBG)的矢量振动加速度传感技术,具有方向识别、微型化、可复用等明显优势,适用于井中三维地震波精细勘探。其中,重点解决了基于单模光纤(Single Mode Fiber,SMF)的矢量振动加速度传感技术难题。为进一步研制井中光纤三维检波器阵列
学位
金属有机框架(MOF)作为一类新兴多孔晶态材料,源于本身有机和无机模块多样化的设计允许自身对于孔环境的微调以及明确的构效关系,在能源存储、气体分离、药物释放、智能材料等方面展露出潜力而备受关注。但随着对材料工作环境的不断严苛,这就要求材料具备更高的稳定性。然而大多数MOF脆弱的框架无法满足这一要求,因此进一步合理设计开发稳定的功能型MOF是其迈出工业化应用的关键。基于软硬酸碱理论,在MOF结构中无
学位
Diels-Alder(DA)反应是共轭二烯烃与取代烯烃或炔烃通过环状过渡态、以协同方式发生[4+2]环加成,生成不饱和六元碳环或杂环的反应,是现代有机合成的经典反应之一。该反应不仅具有良好的区域选择性和立体选择性,而且在不对称诱导时也展现出优异的对映选择性,常被巧妙地应用于复杂结构天然产物和生物活性分子的合成中。然而,商品化的双烯体和亲双烯体较少,通常需要预先制备;高反应活性导致双烯体或亲双烯体
学位
鄂尔多斯盆地东缘是我国较早进行煤层气开发的地区,勘探开发有20余年历史。吴堡矿区在区域构造位置上隶属鄂尔多斯盆地晋西挠褶带构造的组成部分,整体地层走向近南北,倾向西,主体成单斜构造形态。煤层发育在石炭系上统本溪组、二叠系下统太原组和山西组。石炭系-二叠系煤系地层广泛发育、煤系地层的物质组成及层序结构特点,决定了吴堡矿区具备形成大中型煤层气田的基本地质条件。借鉴邻区勘探经验,采用资料调研-野外勘探-
学位
具有高储能性质的陶瓷电介质电容器在电力电子系统中备受关注。然而,有效储能密度(Wrec)和温度稳定性区间的相互制约限制了它们的实际应用。Na0.5Bi0.5Ti O3(NBT)基陶瓷材料是一种具有广泛应用潜力的储能材料,其较高的铁电极化响应有利于得到高Wrec,通过改善其固有的高剩余极化和低击穿强度(BDS)等不足,有望进一步提升其能量存储特性。为此,本文通过对具有芯-壳结构的NBT基复合储能材料
学位
多酶级联催化在生物医学、工业生产、环境保护等领域应用广泛。调控多酶之间的动力学匹配是实现高效级联催化的关键。基于纳米材料构建的多酶体系不仅可以实现天然酶-纳米酶级联反应,还可以响应外源刺激,这为实现多酶催化的时空调控提供了可能性。然而,如何在分子水平上精确调控天然酶-纳米酶之间的动力学匹配仍然是一项具有挑战性的工作。磁性纳米材料不仅具有纳米酶的催化性能,还可以响应交变磁场(AMF)刺激产生纳米尺度
学位
吲哚骨架广泛存在于具有生理活性的天然产物和药物分子中。同时,吲哚衍生物是一类重要的有机合成中间体,例如吲哚衍生物的C2、C3位成环去芳构化反应能够合成具有重要价值的多环吲哚啉类生物碱分子。控制反应的选择性是有机合成化学的终极目标之一,以廉价易得的吲哚衍生物作为初始原料,通过对反应路径的精准调控,选择性高效合成结构多样的复杂化合物是有机合成的研究前沿且极具挑战性。第一章主要综述了近年来无过渡金属催化
学位
二硝酰胺铵(ADN)作为一种新型高能氧化剂,在固体推进剂领域得到了广泛关注。但由于ADN具有一定的毒性,且水溶性良好,其工业化生产过程中产生的废水必须经过特殊处理后才能排放。光催化氧化技术可以原位生成多种活性物种,非选择性地攻击目标污染物并将其矿化为CO2、H2O或特定的无机离子,是一种绿色的消除环境污染的方法。半导体光催化法已被广泛用于2,4,6三硝基甲苯(TNT)、二硝基甲苯(DNTs)、环三
学位
光敏保护基(Photolabile protecting group,PPG)通过光照控制化学键断裂以实现对目标分子的精准释放。由于PPG脱保护反应条件温和且有较高的时间和空间分辨率,其被广泛用于有机合成和生物医药等领域。基于芳香羰基化合物优异的光敏特性,设计开发的PPG具有较高的摩尔消光系数,应用于生物体内可避免吸收过多紫外光诱发细胞损伤。蒽醌(Anthraquinone,AQ)化合物作为芳香羰
学位
固体推进剂是一类重要的特种能源材料,广泛应用于航空航天和武器装备等领域。燃烧催化剂是固体推进剂配方的重要组成,在调节推进剂燃速、降低压力指数和改善羽流特性等方面具有重要作用。铝粉(Al)储量丰富、燃烧焓值高,是推进剂配方中常用的高能燃料。由纳米Al和氧化剂组成的亚稳态混合复合物(MICs)是一种重要的高能复合物燃烧催化剂。和传统CHON有机含能化合物相比,MICs具有更高的能量密度和更好的催化燃烧
学位