【摘 要】
:
目前图像描述技术的主要架构是基于深度神经网络的Encoder-Decoder架构.大多数工作集中在图像的特征提取和注意力机制上,如hard注意力模型和top-down注意力模型等.这些方法仅使用上一时刻的信息预测当前时刻的输出,使得解码器的输入信息的时间维度单一,同时解码器的单个输出也影响着预测结果的准确性.本文提出横向和纵向的多时间维度信息融合的图像描述模型,其中模型的横向结构使用过去和现在时刻
论文部分内容阅读
目前图像描述技术的主要架构是基于深度神经网络的Encoder-Decoder架构.大多数工作集中在图像的特征提取和注意力机制上,如hard注意力模型和top-down注意力模型等.这些方法仅使用上一时刻的信息预测当前时刻的输出,使得解码器的输入信息的时间维度单一,同时解码器的单个输出也影响着预测结果的准确性.本文提出横向和纵向的多时间维度信息融合的图像描述模型,其中模型的横向结构使用过去和现在时刻的语义信息丰富解码器的输入,模型的纵向结构同时生成现在和未来时刻的预测向量来丰富解码器的输出,模型两种独
其他文献
由于成像机理不同,多源图像有本质区别,使得在融合过程中存在差异。本文在参阅了大量的中外文献的基础上,对融合方法进行分类,并重点论述了各类融合方法的融合过程和典型算法,详细阐述了其关键技术。同时,深入评述了当前的评价指标和分类。最后,结合关键技术的影响因素和技术的发展状况,从数据特征、时间效率、信息提取、评估角度和方法的普适性5个方面对融合图像领域的未来发展趋势进行了展望。
针对自然条件下人脸表情识别面临遮挡、光照、姿势变化等挑战,存在识别准确率低的问题,提出了一种新的深度学习网络模型用于人脸表情识别。以ResNet为基础网络,融合了瓶颈注意力机制以及全局二阶池化层,其中瓶颈注意力机制专注于表情重要特征的提取,全局二阶池化层度量表情特征之间的相关性,在此基础上通过联合正则化策略,平衡和改善特征数据分布情况,提高表情识别准确率。所提方法在2个公开数据集FER2013和C
深度卷积神经网络显著改进了单图像超分辨率的性能.更深的网络往往能获得更好的性能.但是,加深网络会导致参数量急剧增加,限制了它在资源受限设备上的应用,比如智能手机.本文提出了一个融合多层次特征的轻量级单图像超分辨率网络.网络构件主要是双层嵌套残差块.为了更好地提取特征,减少参数量,每个残差块采用对称结构:先两次扩张,然后两次压缩通道数.在残差块中,通过添加自相关权重单元,加权融合不同通道的特征信息.
针对基于互学习的知识蒸馏方法中存在的不足——模型只关注教师网络和学生网络的分布差异而没有考虑其他的约束条件; 只关注了结果导向的监督, 而缺少过程导向的监督——本文提出了一种拓扑一致性指导的对抗互学习知识蒸馏方法 (Topology-guided Aadversarial Deep Mutual Learning, TADML) 该方法将教师网络和学生网络同时训练,网络之间相互指导学习,不仅采用网
当图像中文字区域形状复杂多变时,传统锚点方法难以精确定位文字,针对这一问题,提出一种具有双塔结构的文字分割检测算法。首先,在网络中增加自下而上的特征增强路径以充分提炼语义信息,与上一级自上而下的结构形成双金字塔模型;接着新增一条路径缩短较底层与最顶层特征之间的距离,同时使用膨胀卷积,增大卷积核的感受野;最后在损失函数的设计中引入γ参数,改变图像中正负样本的权重分配,使网络更关注困难样本。在标准数据
针对视网膜血管分割困难及时间复杂度高等问题,本文提出一种可以兼顾分割速度和准确度,同时结构非对称的视网膜血管分割模型,即紧凑混合网络(Compact Mixed Network, CMNet).首先,由于可变形卷积能够提取复杂多变的血管结构,并且混合深度卷积中的大核在增大感受野的同时能够改善分割质量,本文在此基础上提出一种轻量级混合瓶颈模块;其次,采用自适应层融合方法进一步提高了模型的空间映射能力
目标检测作为计算机视觉的任务之一已经成为研究热点问题。目前,基于深度学习的目标检测算法层出不穷,但大多数情况下学者只关心它们的模型架构,而忽视了其训练过程。目标检测网络在训练过程中会存在明显的不平衡问题,导致模型检测性能降低,不能达到预期的最佳效果。不平衡问题主要包括两个层次,分别是特征图层次和目标函数层次。为了能够充分发挥目标检测模型架构的潜力,实现更好的训练过程,本文提出利用Balanced
适宜的土壤水分对种子萌发、作物生长具有重要作用,基于土壤水分的播深调整技术需要对播种种沟土壤进行水分检测,以便根据落种点处的土壤水分信息进行播种调节,改变播种策略。本文设计了一种可见光-近红外(Visible and near-infrared,VIS-NIR)式土壤水分传感器。设计中,使用高分辨率光谱仪采集不同水分梯度的土壤光谱数据,采用偏最小二乘回归法(Partial least square
图像匹配是计算机视觉应用研究的主要内容。本文针对ORB图像匹配方法不具备尺度不变性和匹配精度低的问题,提出一种基于改进ORB算法的图像匹配方法。在特征点检测阶段,ORB和SURF同时检测特征点,首先采用oFAST与SURF算法检测左右图像特征点,之后使用rBRIEF描述子描述特征点;在立体匹配阶段,采用Hamming距离对特征点进行粗匹配的基础上,引入极线约束筛选特征点并进行精匹配,减小匹配搜索范
实现机械零部件传统纸质表格测试报告的数字化,是对其进行故障诊断及健康管理的前提条件。现有方法均是针对规则表格进行研究,对于纵向线段不连续、框线错位等现象的非规则表格研究依旧很欠缺。针对残缺表格存在跨页问题,提出了一种基于局部小区域内像素占比的跨页拼接算法;针对现有算法在表格识别及分割存在自适应差、鲁棒性欠佳问题,提出一种图像统计学聚类表格识别分割算法,并实现表格的数字化复现。对现有的147张数字化