基于多智能体强化学习的图像裁剪方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:hxm020101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像自动裁剪技术已被广泛应用于拍摄设备推荐构图、图像编辑后期美化、图像数据集的处理等领域。良好的图像裁剪方法能够保留人类的感兴趣区域以及美学质量高的部分,因此研究高质量高效率的自动图像裁剪具有实际意义。现有的图像裁剪方法主要基于神经网络,需要大量的人工标注裁剪框,并且依赖于滑动窗口机制,导致计算量较大。针对以上问题,本文设计和研究了两种基于强化学习的图像裁剪网络。具体的研究内容和结果如下:(1)基于多智能体图像裁剪相关模型的研究。针对人眼注意力机制与物体显著性检测的差异性,本文设计Res-Yolo V3检测模型和金字塔特征显著检测模型,使原始数据集经过Res-Yolo V3模型划分出包含人与不含人的图像,用显著性检测网络处理不含人的图像并输出对应图片显著图,再输入对应的智能体裁剪模型进行裁剪处理。结果表明,Res-Yolo V3在单类行人测试集上检测精度为84.9%,相比Yolo V3提升0.7%;金字塔特征显著性检测模型在DUTS-test数据集中F值为88%,MAE值为4.3%,最后可视化验证该模型能够准确定位图像显著性区域。(2)基于单智能体的图像裁剪方法研究。针对传统滑动窗口裁剪法存在的弊端,提出了基于DQN网络的单智能体裁剪模型A2-IC(An Agent Image Cropping),通过设计状态、动作空间、构造裁剪图与真实标注框交并比奖励函数,实现自动裁剪并得到原始图片最优的裁剪图。结果表明,A2-IC在FCD-TE数据集的平均交并比AIOU为69.5%,平均边界框偏移ABDE为7.7%;在CUHK-ICD上综合裁剪效果相比目前最优裁剪方法LVRN提升明显;在FLMS数据集上的最大IOU值为84.5%,比LVRN模型提高了0.6%。(3)基于多智能体的图像裁剪方法研究。针对人与物构图区域的不同,提出基于多智能体的图像裁剪流程,利用双智能体CD-IC(Communicate Decision Image Cropping)处理不含人的数据集,其中两个智能体间进行经验交互以实现联合决策,在裁剪过程中同时关注图像的美学分数和显著性区域;单智能体A2-IC模型处理人数据集,在裁剪过程中关注人眼注视点区域;将A2-IC与CD-IC整合构造多智能体模型MA-IC(Multi-Agent Image Cropping),实现对不同类别图片的精准裁剪。结果表明,在FCD-TE测试集上,MA-IC相比单独使用CD-IC、A2-IC模型AIOU分别提升了0.8%与2.3%,相比LVRN提升3%以上;在指标ABDE中,MA-IC的误差值同样达到最低6.5%。通过多智能体的协作算法使图像裁剪更加准确,节省计算成本,为计算机实现自动裁剪功能提供指导意义。
其他文献
近年来,超分子化学经过蓬勃的发展已成为一门高度交叉的学科。金属有机多面体(Metal-organic polyhedrons,MOPs)作为一类有机-无机杂化材料,因其特定的空腔结构以及较高的比表面积成为了超分子化学中的热门研究领域。在众多的MOPs中,利用原位生成的三核锆节点(Cp3Zr3)与不同的羧酸配体自组装构筑的锆基金属有机多面体(Zr-MOPs),作为一类新型的MOPs因其稳定的结构以及
学位
随着通信技术的不断发展,各种无线通信应用层出不穷,6GHz以下(sub6GHz)频段的频谱资源已经被大量占用,而毫米波频段由于其丰富的频谱资源、较高的通信速率以及较宽的通信带宽而得到人们的日益重视,并且已经应用于人们的生活中,例如5G的毫米波通信、60GHz的高通信速率室内无线个人局域网(WPAN)以及77GHz的高精度车载雷达。过去,Ⅲ-Ⅴ族工艺的较高成本限制了毫米波技术在民用领域的发展与应用。
学位
化石能源的过度使用导致二氧化碳(CO2)过量排放,引发温室效应、环境、能源等系列危机。通过清洁可再生的电能将CO2还原成化工原料和燃料,被视为实现碳循环和能量存储的有效途径。然而,CO2分子十分稳定,电化学还原过程中,常常伴随多重电子-质子转移和竞争性氢析出反应,导致能耗高、产物复杂多样。因此,开发高活性、高选择性、高稳定性的廉价催化剂对电化学二氧化碳还原反应(CO2RR)的推广应用至关重要。充分
学位
碳材料因其具有高的化学稳定性、可调的表面基团、丰富的原料来源和结构多变性,近年来被广泛应用于多相催化领域。作为一类载体,碳材料不仅能够为负载金属纳米颗粒、团簇甚至单原子提供锚定位点,还可以通过金属-载体相互作用来调控催化反应性能。从早期的活性碳载体到现在的纳米碳载体,它的催化活性与自身的形貌、杂原子种类、含氧官能团分布或缺陷数量密切相关。在合成方面,鉴于生物质种类多、储量大,是可再生碳库,从生物质
学位
含氮、氯等杂原子的有机化合物是天然产物和药物的核心骨架,因此C-N和C-Cl的形成在有机合成领域占据重要地位。通过太阳光作为能量来源驱动催化合成是C-N和C-Cl构建的理想模式之一。过渡金属配合物具有丰富的活性位点与明确的光吸收中心,是光催化有机合成中的理想催化剂。但是这类材料局限于分子内电荷跃迁类型调节的有限性,使得目前光激发产生的电荷分离激发态寿命较短,导致光催化活性较低。通过非共价相互作用将
学位
自人类有生命活动以来,细菌、病毒等微生物就不断威胁着人类的健康,由于抗生素被滥用导致细菌耐药越来越严重,耐药菌感染已成为全球威胁。随着人们生活水平的提高,人们越来越关注自身的生活环境,对抗菌材料的需求也日益增加。纤维素作为一种可再生的天然高分子材料,具有可生物降解、价格低廉等优点,而且分子链中有大量的羟基,一方面,能与许多其他有机化合物发生反应,另一方面,纤维素具有一定的还原性,能将金属离子还原成
学位
变色材料具有感知外界刺激并改变颜色和物理性质的特点,在光催化、磁性、防伪、吸附和可穿戴电子皮肤等领域得到广泛的关注。无机光致变色材料热稳定性高,但颜色单一、结构调控难;有机光致变色材料颜色丰富、结构多样,但稳定性弱。无机-有机杂化材料可以发挥无机和有机组分各自优势,并可能产生新的性能。然而,如何实现无机和有机部分两者的协同仍然是光致变色材料领域的一大挑战。本论文以紫精类化合物作为研究对象,采用无机
学位
近年来,随着物联网、5G和人工智能大数据时代的到来,神经网络的相关技术和产品将人类带进了人工智能的新纪元。但于此同时,随着任务复杂度的提高,网络模型的参数量也越来越庞大,这样对硬件的低延迟、低能耗、实时性的要求越来越高,但任务的复杂程度是人为无法控制的,而且随着摩尔定律逐渐接近物理极限,依赖摩尔定律和传统冯诺依曼体系架构的硬件处理器性能逐渐趋于顶点,如何降低网络的复杂度并且突破冯诺依曼体系架构的瓶
学位
近年来,金属有机框架材料已成为热门研究领域。因为其具有超高的比表面积和孔隙率、易于修饰的结构、可调的孔径尺寸,所以,金属有机框架材料在气体的吸附分离、荧光检测、发光传感等领域都有很广阔的应用前景。在本论文中,我们合成了五例金属有机配位化合物并探究了其发光性能。本论文主要内容分为以下三个章节:第一章,简要介绍了金属有机框架材料和羧酸类金属有机框架材料的特点,着重介绍了其在化学发光领域和荧光传感领域的
学位
β-淀粉样蛋白(Aβ)的聚集及其引起的神经毒性在过去被认为是阿尔茨海默症(AD)发病的主要诱导因素,但随着对AD致病机理研究的深入探索,大量研究结果表明Aβ蛋白的沉积与AD患者脑部过量堆积的活性氧自由基(ROS)存在紧密的相互联系。因此,以Aβ蛋白为单一靶点的治疗策略难以有效实现AD的治疗,而研发能够同时实现抑制Aβ蛋白纤维化和清除脑部过量ROS的治疗药物显得尤为重要。本论文以开发设计治疗AD的多
学位