基于多尺度多属性深度学习的主客观图像质量评价

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yangzzhenhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高速发展的互联网时代,出现了海量多媒体数据。然而,数字图像在数字化处理、存储、传输、复制等过程中都可能受到不同类型、程度的质量损失,因而影响到人们视觉感受。图像质量评价(Image Quality Assessment,IQA)技术旨在学习一个回归模型,从而自动地预测指定图像的质量评价分数。这不仅为筛选高质量图像提供了极大的便利,同时在许多应用中发挥着不可或缺的作用,如:图像搜索引擎、图像修复、图像编辑等。近年来,虽然基于深度学习的图像质量评价蓬勃发展,但是其也逐渐进入瓶颈期。为此,本文深入地调研图像质量评价的进展,并分别提出了一种基于多尺度滤波的图像质量评价模型(MSF-DBQA)。另外,图像美学质量评价(Image Aesthetics Assessment,IAA or Aesthetics Quality Assessment,AQA)是图像质量评价的一个重要子方向,在图像筛选、美学设计等领域起着基础性作用。鉴于美学质量评分的主观性和抽象性,其难以自动建模,因此本文借助客观性更强的美学属性,即藉由研究美学属性评价(Aesthetic Attributes Assessment,AAA)来捕捉美学质量中的共性特征从而提升IAA的性能。在本文中,基于深度学习的图像质量评价的研究工作主要有以下三个方面:(1)调研和回顾了图像质量评价的研究工作,包括该课题的研究背景及意义,以及国内外的研究现状。通过调研图像质量评价的研究进展,本文了解到无参考图像型的图像质量评价是目前该领域的研究难点,而且深度学习在该领域获得了广泛的应用。但是,鉴于图像质量评价的抽象性、神经网络的低解释性等问题,基于深度学习的图像质量评价也逐渐进入了瓶颈期。(2)提出一种基于多尺度滤波的图像质量评价模型(MSF-DBQA),用于评价无参考型图像在不同失真类型下的失真程度。MSF-DBQA模型的框架是由局部回归分支和全局回归分支构成,用于学习输入图像与其质量分数的映射关系。其中,局部回归分支是全卷积结构,因此具有较少的训练参数量;而全局回归分支的输入是局部分支中间网络层特征的统计信息,具有明显的几何解释性。通过实验分析,实现了到目前为止最先进的预测精度,而且也具有很好的泛化能力。另外,受到自然场景统计(NSS)的启发,提出一种多尺度滤波器来提取不同频段的图像信息,并证明了利用多个频段的图像融合作为MSF-DBQA模型的输入可以有效地提高所提模型的性能。(3)还提出一种基于数据协方差的多属性建模的算法(COV-MAM),用于评价图像美学属性的质量。COV-MAM通过拓展基于高斯分布的数据不确定性学习来对多属性数据进行建模,并设计一种两步参数法来构建对称正定的协方差矩阵,并构建了模型的损失函数。COV-MAM模型能够以完全端对端的方式对数据中的整体质量分数和多个属性分数进行建模,并指导整个模型的训练。在没有借助任何手工特征的情况下,仅使用标准的Res Net-50作为模型框架即可达到目前为止最先进的性能。另外,该模型还能够便捷地迁移到其他深度神经网络的架构中,具有较好的拓展性。总而言之,本文提出一种基于多尺度滤波的图像质量评价模型(MSF-DBQA)和一种基于数据协方差学习的多属性图像美学质量评价模型(COV-MAM),均达到了领先的效果。
其他文献
矿柱稳定直接关系矿山工作人员、作业设备的安全。沉积型铝土矿体常赋存于沟壑黄土地貌之下,通常采用条带式房柱法开采。目前国内外相关沉积型铝土矿矿柱稳定性研究,尚未能考虑到复杂地表地貌条件影响。由于上覆沟壑地表地形起伏大,沉积型铝土矿矿柱易出现应力集中、发生剪切滑移破坏等问题,不利于矿区安全稳定。因此,开展沟壑黄土地貌下伏沉积型铝土矿矿柱稳定性研究,提高铝土矿山本质安全技术水平,具有重要意义。论文以山西
随着多媒体技术的快速发展,图片数量迅猛增加,倚靠人工对海量图片进行标注和分类的管理模式已经远远无法满足现实需求。因此,利用计算机技术自动对图像进行分类成为目前的一个研究热点。相比于其它模式识别的任务,场景分类(Scene Classification)任务旨在理解整个场景图像的语义内容和组织方式,因此对场景图像的分类任务一般更复杂。近年来,深度学习(Deep Learning)突破传统人工设计特征
随着我国经济的发展、建筑功能的需求和土地价格的攀升,扁长板式超高层住宅建筑不断衍生而出,已逐渐成为城市里高层住宅建设中的一个非常重要的部分,这类板式住宅建筑的特点是建筑长度明显大于宽度,在容积率、绿化率以及高层的通风采光功能方面都表现出优异的特性。然而在工程实践中常常发现,当板式超高层建筑平面的深宽比(D/B)较大时,荷载规范建议的横风向风荷载(CWL)往往过于保守而成为结构抗风设计中的制约因素。
三相VIENNA整流器具有谐波小、能够实现单位功率因数、开关应力低和无桥臂直通风险等优点。但是,三相VIENNA整流电路的基本PFC结构采用的是Boost单元,存在升压二极管的反向恢复、开关损耗大、电磁干扰大和电能传输效率低等问题,对整流器的性能提升造成了一定的限制。因此,本课题对三相VIENNA整流器的软开关技术开展深入研究,以减小其电磁干扰,提升其电能传输效率。本文的主要工作内容如下:阐述了单
语音情感识别作为智能人机交互系统不可或缺的组件,具有重要的研究意义,在医疗辅助、健康管理和生活服务等方面具有广阔的应用前景。深度学习技术的快速发展为语音情感识别注入了新的活力,但现阶段对于语音情感识别的研究仍存在许多不足。大部分工作集中在对手工特征和网络结构的设计上,而忽视了对目标损失函数的设计和蕴含情感信息的多种模态之间的协同作用的探究。为了提高语音情感识别系统的性能,本文针对这些问题展开研究,
大型中央空调系统属于典型的多变量、非线性、强耦合、大滞后系统,随着建筑规模的不断扩大,与之相匹配的冷冻水管网拓扑结构也愈加复杂多样。冷冻水系统设计选型与实际运行负荷的不匹配导致空调系统长时间处于部分负荷运行状态,系统运行效率低,运行能耗偏高。因此在保证末端用户舒适性的前提下,考虑空调管网各节点负荷随机分布特性,探寻中央空调冷冻水系统能效优化方法及其影响机理,对解决冷冻水系统节能运行与优化设计技术问
全球能源危机和气候变化问题日益严峻,推广电动汽车成为各国实现节能减排的重要选择。大量的电动汽车将通过充电机接入电网,其中大功率快速充电机得到广泛应用。快速充电机作为典型的高频电力电子设备,接入电网后产生的谐波以及超高次谐波问题不容忽视。考虑到现有的仿真以及实验室测试研究局限性,为了更全面地掌握电动汽车快速充电的谐波以及超高次谐波发射特性,本文在某市的电动汽车快充站内进行了大量的现场测试,并对实测数
微结构成型模芯的传统光整加工存在抛光工具的微细端制造困难,抛光工具与微结构接触表面的压力不易控制,微结构边沿毛刺难去除等问题。因此,本论文基于流体动压和剪切增稠效应,提出一种动压剪切增稠磨粒加工及其复合微磨削的新方法。其技术特点是:将微成型磨削与表面光整去毛刺两种工艺复合,在同一台机床、同一工位上使用同一工具,实现金属模具钢的微磨削和表面光整一体化加工。基于动压剪切增稠磨粒流加工的基本原理,利用仿
薄膜晶体管(TFT)是广泛应用于平板显示领域的半导体器件。当前,大尺寸高分辨率高刷新率的面板拥有了愈发重要的市场地位,这就对TFT器件的性能提出了更高要求。传统的有源层和源漏电极材料已经不能满足新型显示对迁移率和延迟的要求,新的InSnZnO材料由于具有比传统In Ga Zn O材料更高的载流子迁移率而受到了关注,铜制程由于材料本身的低电阻率特性也被希望应用于降低布线电阻从而降低面板的RC延迟。本
钛及其合金是上世纪50年代发展起来的新型结构材料,具有优异的物理化学性能,但是,高昂的制作成本限制了其在民用市场中的运用和推广。粉末冶金技术的出现一定程度上缓解了这一窘境。近年来,使用Ti H2粉末制备钛及其合金的新工艺受到越来越多学者的关注,然而与铸锻态相比,通过该工艺制备出的试样其力学性能仍有待提高以满足实际工程运用的需求。因此,尝试新的成形方式、优化烧结工艺、引入热挤压塑性变形技术以改善材料