面向下游分析的深度特征压缩研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yukitolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习在机器视觉领域发挥了重要的作用。而在实际应用中,视觉特征的码率成为众多下游视觉任务的基本衡量指标之一,因为这关系到数据传输以及计算的代价。如今,图像不单单面向于人眼,更多时候需要送入计算机来进行分析。针对于面向机器视觉的特征压缩,我们提出了一种基于乘积量化的无监督特征压缩算法并应用于图像检索任务,该方法在图像检索任务检索性能超越了目前最先进的无监督方法。另一方面,如今研究人员提出了许多方法分别有效地压缩人眼视觉特征和机器视觉特征,然而目前少有方法探索了人眼视觉特征和机器视觉特征之间的关系。对此,我们提出了一种基于Transformer的端到端深度学习模型用于图像压缩任务与分析任务的联合训练。实验证明,机器视觉特征能有效指导面向人眼视觉的图像重建。本文的主要工作与创新总结如下:(1)提出了一种基于乘积量化的特征压缩算法,并应用于无监督图像检索任务上。近年来,出现了基于对比自监督学习的深度乘积量化方法并得到了出色的性能。然而,现有方法由于假负例样本以及量化引起的特征失真导致了样本偏差和量化偏差。此外,他们关注特征之间的整体相关性,没有考虑特征通道之间的冗余减少,导致量化的性能下降。鉴于这些限制,在本文中,我们提出了一种新颖而有效的双对比乘积量化(DCPQ)算法。具体来说,在编码阶段引入了无负例的对比编码损失(CEL),这项损失作用于没有量化的原始特征,并促使特征通道在统计上趋近独立。此外,DCPQ采取了对比量化损失(CQL)以进行特征和量化码本的协作学习,其形式为对齐特征在码本上软分配的KL散度。同时为了保证模型稳定能稳定训练,DCPQ采用了指数移动平均(EMA)策略来实现无梯度学习。实验结果表明,我们的方法在多个数据集上优于最先进的无监督图像检索方法,此外,我们在文本图像检索上测试了DCPQ,这进一步证明了我们的方法在跨模态检索中的有效性。(2)提出基于Transformer的端到端的图像压缩与图像分析任务联合训练的框架。用于解决基于云计算的图像分类应用。通过重新设计视觉Transform er,使用压缩后的特征进行图像分类,并利用Transformer网络生成的中间特征来指导图像压缩。具体来说,我们Transformer的编码器部分替换为更加轻量化的适用于压缩的传统卷积网络,同时将编码后的特征分别送入图像重建分支与图像分类分支。同时,我们提出了一个特征聚合模块,以融合被压缩的特征与图像分类分支产生的中间特征,并将融合后特征送到用于图像重建的卷积神经网络中。实验结果证明了我们提出的模型在图像压缩和分类任务中的有效性。
其他文献
传统的视觉SLAM算法大多基于场景是静态的假设,而实际生产生活中的场景大多是动态的。在动态场景下,利用环境中的特征点匹配会造成误匹配,并且在运行过程中会产生累积漂移,相机位姿估计的精度,进而影响系统的定位精度和地图构建的稳定性。另外,传统的SLAM算法构建的地图往往是稀疏的点云地图,只能用于定位,而不能用于执行更高级的人机交互任务。针对目前SLAM算法在动态环境下存在的问题,本文提出了动态环境的轻
学位
2017年财新传媒首开国内新闻财经类媒体全面付费的先河,推出了财新通、数据通、英文通、周刊通等一系列付费产品,这一举动不仅帮助财新传媒营收稳步增长,在同类市场中保持了领先地位,也为财经类媒体的数字化商业模式的转型升级提供了经验。本文针对财新APP这一较为典型的新闻付费应用进行了用户体验影响因素的分析,并尝试建立影响财新APP付费用户体验的模型,为更多的媒介平台用户体验研究提出新的思路和理论参考,同
学位
写作可以培养学生的沟通和思考的能力,而对于作文的人工评分与评语却存在效率低,成本高且主观性强的特点。随着自然语言处理技术的快速发展,对中文作文处理的相关技术越来越受到研究人员的关注,但是,目前已有的作文批改系统存在一下几个问题:1)分析方法过于浅层;2)特征提取不够全面;3)评分可解释性差。针对以上问题,本文对作文自动评分以及评语生成技术进行了探索。本课题的研究意义一是对作文评分进行了多维度划分并
学位
短视频相较其他媒介形式,对互动性和用户参与度有着本质的强调。因此短视频健康传播与报纸、电视、宣传册等形式的健康传播相比,对内容受众的影响更为直接。因此,健康传播在当下对于医患关系尤其是重症领域医患交流的影响与介入也更加显著。通过文献查阅,本文梳理了传统健康传播环境中,我国当前医患交流关系的主要问题。基于此,本文将研究将短视频对健康传播的革新、短视频健康传播对医患双方的认知与行为重塑作为研究重点,从
学位
视频压缩是计算机视觉领域一项重要的技术,它利用视频和图像的数据冗余特性来压缩数据,从而减轻网络传输和数据存储的负担。然而在对视频进行压缩时会引入压缩噪声,影响了视频的视觉体验,因此需要设计增强算法来去除这种压缩噪声,提高视频和图像的质量。近年来,神经网络技术发展迅速,为视频质量增强提供了新的思路。卷积神经网络CNN利用图像的平移不变性设计了独特的卷积结构和权值共享机制,是图像去噪方法常用的模型结构
学位
目前,医学影像已成为临床实践中不可或缺的工具。随着医学成像技术的巨大进步,医学影像的数据量显著增加,导致医学影像的存储、检索、传输、管理的负担越来越重。有损压缩算法不适用于医学图像,因为有损压缩引入的伪影可能会误导诊断并导致潜在的医疗事故。为了满足对图像保真度的严格要求,无损压缩是医学图像最可靠的选择。当前基于学习的无损图像压缩方法仅关注低动态范围(Low Dynamic Range,LDR)自然
学位
我国经济目前已经开始步入新常态,以往的发展路径如:人口红利,资本积累,出口依赖等发展模式的可持续性存在较大的问题,如果经济需要接着高质量可持续的发展,稳定的增长,提高全要素生产率是我国经济发展的必由之路。一个良好发展的金融体系对企业发展的积极作用是毋庸置疑的,一方面各金融机构能够降低企业融资时面临的摩擦成本,另一方面还能拓展融资渠道:提供各种金融服务与金融产品,对其融资约束的缓解以及其持续经营的支
学位
2005年联合国提出普惠金融一词,其主要含义是有效、全方位的服务于社会的各个阶层人群。同年,我国也引入了普惠金融这一概念,并得到有效推广。随着数字经济和普惠金融的发展,数字经济的便捷性与安全性凸显,数字普惠金融也逐渐成为推动实现经济高质量发展的重要战略导向。绿色发展是中国共产党十八届五中全会提出的“五大发展理念”之一。大力发展环境友好型的产业,通过节能减排的技术措施,实现经济发展与自然和谐共生的经
学位
近年来,房地产行业发展势头强劲,融资规模不断扩大,房地产贷款在银行信贷余额中的占比逐年攀升,使得房地产行业与银行业的联系愈发密切。因而,一旦房地产行业发生危险事件,必定会对银行业甚至整个金融体系的稳定产生不利影响。因此,在国家“牢牢守住不发生系统性金融风险底线”的政策背景下,本文对房地产行业发展及其风险现状进行梳理,对现有研究视角进行拓展,将房地产行业纳入系统性风险管理的框架进行分析,在主流测度方
学位
随着深度学习的迅猛发展,多媒体分析已经取得了长足的进步,如对象跟踪、语义分割等。然而,视频的高级语义理解仍然是一项十分具有挑战性的任务。为了弥合视觉和语言之间的差距、增强多媒体分析系统的可解释性,视频视觉关系检测(Vid VRD)任务应运而生。该任务除了需要预测视频中各个目标的所属类别与运动轨迹,还需要对对象之间的关系进行判定,该关系以<主体,谓词,客体>的形式表示。基于此技术可以快速理解视觉场景
学位