基于深度学习的图像内容中文描述研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:hu549881262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习在计算机视觉和自然语言处理领域的广泛应用,图像内容中文描述作为跨模态转换任务逐渐成为研究热点,它将计算机视觉和自然语言处理两大领域深度结合,不仅需要理解并提取图像的语义信息,还需要将其转换为文本描述语句。该任务能够理解并描述图像内容,其研究内容具有很高的研究意义和应用价值,可以应用于图文互搜、图像检索、图像标题生成、少儿教育等众多场景。本文使用目前流行的编码器-解码器网络结构,首先利用编码器提取图像中的语义特征信息,然后使用解码器将图像语义特征解码生成词向量概率矩阵,最后在描述生成阶段将词向量概率矩阵转换为文本描述语句。本文分别在网络模型的解码阶段、编码阶段以及描述语句生成阶段进行研究改进工作。本文的主要研究内容如下:(1)在解码阶段,利用注意力融合机制来改进网络模型。针对现有基于注意力机制的图像内容中文描述方法在解码时,无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注等问题,提出了一种图像特征注意力与自适应注意力融合的图像内容中文描述方法。首先构建编解码网络结构,在编码器网络中提取图像特征;然后通过图像特征注意力提取图像全部特征区域的注意力信息,接着使用解码器网络将带有注意力权重的图像特征解码生成隐藏信息,保证关注信息不减弱、无缺失;最后利用自适应注意力的视觉哨兵模块对图像特征中的重要区域进行再次加强关注,从而更加精准地提取图像的主体内容。实验结果表明,所提方法能够有效提升模型的图像理解能力,各项评价指标得分均优于对比模型。(2)在编码阶段,利用图像特征融合机制来改进网络模型。上述在解码阶段使用注意力融合方法,虽能在一定程度上提升模型对主体内容的提取能力,但是模型内缺少图像的局部细节特征,并没有充分利用全局和局部图像特征信息,导致模型对图像细节信息理解能力不强等问题,因此对模型性能的提升比较有限。针对以上问题,在上述所构建的编解码网络结构基础上,本文提出了一种全局与局部图像特征融合的图像内容中文描述方法。首先利用卷积神经网络来提取图像内的全局特征和图像的公共特征图;然后利用区域建议网络在图像公共特征图内生成局部候选区域,接着使用非极大抑制算法对局部候选区域进行筛选,并利用Ro I(Regions of Interest)池化网络层提取得到局部候选区域所映射的局部特征;最后将全局和局部特征深度融合,进而增强两种特征的关联程度,使模型能够全面理解图像内容的全局场景信息以及局部细节信息。(3)在描述语句生成阶段,针对上述所提的两种图像内容中文描述方法,在语句生成时直接使用概率值最大的候选项作为最终词向量,导致生成的描述语句效果不佳等问题。本文利用集束搜索算法,对上述所提出的两种图像内容中文描述方法的描述语句生成阶段进行优化,使模型能够在合理的解空间范围内,寻找到最佳的图像描述语句。
其他文献
数控机床代表着精密制造的技术水平,其精度和可靠性是衡量加工零件质量和安全性能的重要指标。提高机床的加工精度,保证机床的使用可靠性,对数控机床的发展和国家制造水平的提升具有重要意义。对误差变化的规律进行分析建模,并运用计算机计算、预测和控制在加工过程中人为制造一个相反的误差与之补偿,能实现机床加工精度的大幅提高。本课题详细介绍了误差补偿相关过程和技术,分析了旋转轴位置对机床综合误差的影响,建立了数学
机器人应用场景正在不断拓展,从最初的用于工业生产提高生产效率,到当下开始转向服务行业帮助人们创造美好生活。因为家庭服务的需要,家庭服务机器人独特优势越来越明显,但是至今还没有开始应用,是因为存在一定的实际问题。其中就包括家庭服务机器人面临未知复杂的家庭空间环境而无法实现自主导航问题,因此对其导航系统的研究显得十分重要和迫切。本文以项目小企鹅形的家庭服务机器人在家庭环境下导航问题为研究对象,针对未知
正逐年加剧的人口老龄化问题给我国养老助老行业带来了巨大冲击。同时养老产业体系不完善,养老资源不充足,劳动力人口比例逐年缩减等因素,都使得未来养老助老产业将面临资源大量短缺的问题。伴老家庭服务机器人的出现为解决养老助老这一系列的社会问题提供了新思路,也成为当下的研究热点和产业的发展方向。本文以伴老家庭服务机器人为研究对象,针对现有家庭服务机器人无法有效监控老年人异常疼痛状态的实际问题,重点对老年人痛
肘关节在创伤或手术后容易僵硬和粘连。高能量创伤易导致肘关节活动性丧失。轻度创伤也可能导致肘关节僵硬。近年来,尽管肘关节及周围组织创伤的治疗手术取得了世人瞩目的进步,但术后肘关节粘连挛缩仍很常见。改良肘关节矫形器能够提供术后肘关节一个不受环境影响、能做康复运动、便携的康复环境。生物阻抗谱法(BIS)能通过对生物电信号的分析,快速准确的得到其机理信息,具有高速、便携、无创伤等特点。因此,本文提出一种基
传统鸡腿菇的采摘和加工主要靠人工劳作,其中不可食用的根部切削是整个加工流程最费时费力的一道流程,实现根部自动化切削是目前急需解决的关键问题,机器人的应用给解决这一问题提供了契机。因鸡腿菇自身较脆,采摘加工过程对机器人的核心-“控制器”要求较高;基于运动学位置误差控制对伺服驱动器要求较高,且机器人发生意外,不能及时做出响应,造成机器人损坏甚至对工作人员的生命安全产生威胁。基于动力学模型力矩误差控制,
动态多目标优化问题普遍存在于现实生活中,此类问题的目标函数和决策变量会随着环境的变化而改变,因此求解该问题的优化算法必须能够快速而又准确地跟踪变化的最优解。基于预测的动态多目标进化优化算法可以根据历史环境信息寻求变化规律,预测未来环境的变化情况,是一类积极响应环境变化的有效算法。因此,本文对预测方法进行研究,提出两种基于预测的动态多目标进化算法。主要研究内容如下:针对算法求解动态多目标优化问题时存
电力机车的故障类型中,因轴承异常温升导致的轴承失效故障是最常见的,轴承温度在一定程度上反应出了机车运行的状况。机车在运行途中,短时间内轴承产生不正常的升温,预示着轴承存在故障缺陷的可能,持续的轴承发热会降低机车轴承的使用寿命,轴承的维护周期势必会缩短,更换频率也会增加;若是轴承异常温升长时间不被发现,最为严重的情况会导致车轴发生断裂的重大机车事故,带来的人员伤亡和社会经济损失不可估量。所以针对轴承
手势识别相比于人脸识别、行为识别等更具有直观性和简洁性,因此手势识别广泛应用于人机交互中。为了进一步提升手势识别的综合性能,本文使用传统方法和深度学习方法分别进行特征提取,通过优化集成分类器来改善手势识别的分类效果,并开发了一个基于自制数据集的手势识别系统。论文主要包括以下几个方面:手势特征提取方法分为两类,一类是基于传统的手势特征提取方法,如Hu距、颜色直方图、梯度直方图和Hausdorff距离
随着经济、社会、城镇化进程的不断加快,促进了小城镇人口集中和产业聚集,也使得小城镇的土地利用发生了巨大变化,间接影响着区域的发展,尤其在土地资源紧张、人地关系矛盾突出、耕地锐减的形势下,合理科学地利用土地,可以有效促进社会经济的高质量发展。本文以河北省张家口市宣化区为例,深入分析了宣化区的土地利用类型和生态系统服务价值(Ecosystem Service Value,ESV)的空间分布特征,同时为
由于自动控制、网络技术及微电子技术的迅猛发展,市场上多种多样的智能传感器、智能控制芯片面世,网络化控制系统便成为工业自动化控制领域一个值得深究的热点问题。网络化控制系统具有资源共享、结构简单、可靠性和灵活性更高及可远程操控等优点。但是优点众多的网络化控制系统仍然也会存在一些难以解决的问题,由于所传输的信息都是在网络中进行传输,而网络带宽通常是有限的,这就不可避免地存在介质访问约束、数据丢包和量化等