基于深度学习的高动态范围图像质量评价算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:mailyangli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术和相机设备的快速发展,多媒体数据呈现爆发式增长,人们通过图片来直接表达意见、传递信息的方式也越来越常见。一方面,尽管高动态范围图像可以细致反映真实场景,为了方便输出,其通常会被图像处理算法将其动态范围压缩至输出显示设备的动态范围以下。这是高动态范围图像研究的热点和重点之一。另一方面,图像质量的主观评价在过去几年引起了很多的关注。传统的图像主观质量评价主要侧重于预测图像的平均意见得分,而忽略了人们对图像意见的多样性的问题。为了解决上述问题,本文提出了图像意见得分分布预测方法,提出了两种高动态范围图像意见得分分布的预测模型。具体工作包括以下两个方面:
  一、基于标签分布支持向量回归的主观图像质量评价方法:本文将基于深度学习的特征提取和回归预测整合成统一框架,从而联合学习更具分辨力的特征表示和更合理的预测模型。具体来讲,深度学习特征对于捕获图像中全局和局部的信息起着关键作用;回归预测通过把包含图像有效信息的特征转化为意见得分分布。本文提出通过标签分布的方式来表达图像意见的多样性。实验结果表明,所提出的含图像有效信息的特征转化为意见得分分布框架可以有效地预测图像意见得分分布。
  二、基于深度学习的端到端主观图像质量评价算法:为了进一步促进图像特征转化为意见得分分布过程的高效和相互学习,本文提出将深度学习应用到图像质量评价领域。本文使用的基于深度学习的模型采用基于ResNet50的经典网络[18],最后一个卷积层被一个新的统计感兴趣区域(region of interest, ROI)池化层取代,后面设计两个全连接层。为了促进概率分布学习,该模型使用交叉熵损失而不是经典的均方误差损失进行训练。所提出的算法在六个代表性评估度量方面比现有的标签分布学习方法具有更优越的性能。
其他文献
随着计算机技术和计算机视觉的迅速发展,人脸表情识别算法在人机交互环节中充当着重要角色,有着非常广阔的应用前景。人脸表情识别算法可以统计学生在课堂上的听课状态、记录司机在驾驶过程中的疲劳程度、捕获危险分子在公共场所的异常表情避免不必要的事故等等。提高人脸表情识别算法的准确率是人脸表情识别领域的重要任务。  选择合适的网络结构和损失函数对于提高基于卷积神经网络的人脸表情识别算法的准确率至关重要。人脸表
复杂背景下的目标检测是计算机视觉领域的核心问题之一,其主要任务是识别和定位图像中的目标。本文针对复杂背景下的目标检测提出结合显著性和模板匹配的算法。首先对图像做显著性预处理,然后在显著性区域内实现目标检测,最后对基于显著性和模板匹配的目标检测算法做实验分析。  在显著性预处理过程中,首先提取图像的超像素特征向量,通过随机森林分类得到包含前景、背景和未知区域的初始显著性三元图,在三元图中完成显著性检
学位
在深度学习领域,自然图像、音频信号、文本符号等数据被认为服从特殊概率分布。深度学习模型中的生成模型通过建立满足上述数据分布的概率模型,可以直接生成与观测样本内容相似的数据样本,因此此类模型一直是学者重点关注的对象。与传统生成模型相比,生成对抗模型不依靠任何先验假设,且拥有操作简单的采样方式,所以拥有更广泛的应用场景。因此,本文围绕生成对抗网络原理与具体应用展开研究。  在本文中,我们首先介绍了生成
学位
3D图像作为信息传递的重要载体,能够呈现场景中物体之间的深度关系,在电影电视、科技教育、远程医疗等领域有着广阔的应用前景。与此同时,人们对3D图像质量也提出了更高的要求,包括分辨率和清晰度等。然而,受传感器精度的限制和噪声的影响等,3D图像分辨率常常难以满足实际需求。因而,通过超分辨率技术,提高3D图像的空间分辨率并抑制噪声,有着重要的研究意义。本文针对3D图像超分辨率技术,从基于深度学习的深度图
图像配准的主要任务是寻找两幅或多幅图像之间的空间变换关系,以实现图像在空间位置上的对齐。其中,非刚性图像配准是计算机视觉领域的研究热点,在医学图像处理、遥感图像分析、图像拼接与融合等领域都有着重要的理论意义和研究价值,代表了未来的研究方向。  本文首先分析了非刚性图像配准的研究背景以及国内外研究现状,着重介绍了基于特征和光流估计的非刚性图像配准方法,并指出了这两类方法的优势与不足,同时给出了评价配
近年来,随着计算机技术的不断发展,高级辅助驾驶系统以及自动驾驶系统的研发工作引起了国内外学者的广泛关注,其中道路交通标线检测是最为基础且重要的一部分。道路交通标线包括车道线以及路面交通标志,车道线是指用于划分车辆可行驶区域的线条图形,路面交通标志是指涂绘在车道中央的箭头、文字、图案等,可通过计算机视觉算法实现道路交通标线的检测功能,从而对车道保持、车辆换道、转弯等驾驶行为起到关键的指示和监督作用。
现如今,卷积神经网络作为实现计算机视觉的重要方法之一,得到蓬勃并且急速的发展。基于卷积神经网络的目标检测技术在精度和速度方面远远超过传统算法,可以达到甚至超过人眼的水平。人脸检测技术作为目标检测领域的一个核心技术,是计算机视觉的重要组成部分,可以应用于考勤系统、智能监控、车站安检等众多场景之中。  作为基于卷积神经网络的目标检测算法的经典代表,Faster-R-CNN算法在目标检测任务中达到了很高
学位
时间触发以太网(Time-triggered Ethernet, TTE)是一种时间业务与事件业务混合的以太网网络通信新技术,相较于传统以太网,时间触发以太网提高了网络资源利用效率。  本文首先基于现有的混合流量分区调度策略,引入TT响应约束,设计适用于存在响应约束的TTE网络离线调度表生成方法。同时采用对网络流量信息先综合复合,再细化不同终端节点调度表的策略,简化调度表生成方法。并设计离线调度表
深度学习极大促进了计算机视觉领域的发展,如图像检索、目标检测等。但这些任务依赖于大量的标注数据进行训练。然而,现实世界中的某些类别只有少量的标注样本,甚至没有标注样本,这为传统分类算法带来了新的挑战。为了解决该问题,零样本图像分类技术得到关注,即:对训练阶段未出现的类别进行分类。本文针对零样本图像分类技术分别提出基于特定类别的合成字典模型(Class-Specific Synthesized Di
最近几年来,由于互联网技术的快速发展,伴随着信息传播速度的提升,大量三维模型数据开始呈现井喷式增长,三维模型的数据也成为一种新型的数据类型。随着深度学习的出现,国内外研究学者对三维模型的研究成了现阶段一个热点,在各行各业的应用也十分广泛,诸如:医学3D打印技术、计算机辅助设计(CAD)、3D动画设计、工业产品设计、机械零件制造等。鉴于三维模型的应用前景广泛,如何在有效管理大量的三维模型数据同时,并