基于深度学习的图像高级语义描述算法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sailer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的协同式发展,网络及社交媒体上每时每刻都涌现出大量的图像及文本数据。其中,图像作为一种重要的信息承载媒介,往往呈现出数据量大、内容多且覆盖广等诸多特点。面对网络中海量且持续的视觉信息,单靠人工标注工作量大、成本高、差异多,且不利于提升图片分类及索引的效率。图像生成描述系统允许用户输入图像,并自动返回与之内容匹配的自然语言描述。该模式有助于节约时间和人力成本,实现机器对图像视觉信息的自动理解,既可以解决图片引擎的效率和性能问题,还可以维护网络环境的安全。随着深度学习的发展,图像生成描述技术近年来已经取得了不错的进展。但是,现存的描述方法仍存在着诸如准确性、细节性、多样性不足等一系列“语义鸿沟”问题,这意味该研究还存在着巨大的提升空间。本文致力于研究提升描述网络的性能和生成语句描述的质量,针对自动文本描述现存的问题,做出了以下研究成果:(1)针对图像生成描述语义信息偏差的问题,本文提出了一种基于残差注意力机制和有序记忆模块融合的描述算法。高效提取关键的视觉特征,充分利用有序记忆模块学习到语句的层级信息。实验表明,该融合算法可以有效地提升描述内容的语义准确性,并生成更加准确且富有层次感的描述;(2)针对图像描述高级语义细节缺失的问题,本文提出了一种基于知识图谱的视觉关系描述算法。生动呈现图像实体的视觉关系网络,深入挖掘实体间的视觉关系,用以丰富描述的语义细节。实验表明,该算法可以有效地增强描述细节的语义完整性,生成更加全面且贴近自然语言的文本描述;(3)基于上述研究,本文提出了一个基于深度学习的图像高级语义描述算法,来解决上述高级语义偏差和缺失的问题。结合深度学习中的诸多先进机制,融合上述两种算法,优化和改进图像描述技术。旨在跨越“语义鸿沟”,实现自动化地高质量图像描述生成。本文在大型数据集上评估并验证了所提出的算法,最终实验表明,该算法能够生成准确全面、层次丰富、流畅自然的语言描述。
其他文献
信贷业务中贷后的风险监控是长期困扰我国银行信贷业务的工作难题,这其中的原因可能包括银行在信贷等工作中监控体系建设不完善、防控风险设置不完备、风险控制不严格等,当然也存在一些人为风险因素,这些都说明了银行信贷业务中贷后监控风险控制的复杂性和艰难性。本文针对金融行业客户贷后业务管理难题,借助计算机技术,结合成熟的大数据技术,设计并实现贷后监控系统,将信贷业务的数据统一管理归档,统一调阅审核,丰富项目管
随着计算机技术快速发展,人工智能技术已经在各行各业中应用。在信息科学教育领域,基于块的编程语言受到了越来越多学生和老师的关注。Scratch是一种基于块的可视化在线编程语言,用类似儿童积木来形象地表示代码模块,其低门槛和易于上手的特性使得其受到越来越多学生和老师的欢迎。Scratch工具中的音乐模块使得Scratch作品更加多元化,且具有艺术性。作品中音乐可以很好地表达出作者的情感。但是目前的Sc
随着5G、高精度通信等现代科技的飞速发展,网络授时作为其中的关键支撑技术受到了广泛的关注。分布式测量、算法调度、高频交易等众多新兴应用对网络授时的需求也快速增长,对现有网络授时系统的授时精度提出了更高的要求。精确时间协议(PTP)是目前应用广泛的授时协议,实现了授时精度从毫秒级到亚微秒级的巨大突破。然而由于实际网络中存在上、下行不对称的时延,导致PTP时间偏移计算结果不准确,授时精度也因此受到了限
传统的心理测评模式受到纸质心理量表和地域、时间等方面的制约,无法满足大规模的心理测评。本文依据心理云平台开展心理测评业务的要求,利用软件开发技术设计和实现心理量表构造及测评报告生成系统,使之提升心理测评业务的效率和规模。本文首先分析和归纳系统周围环境、用户角色、功能性需求、非功能性需求。根据系统周围环境分析与其他系统和用户的交互情况,将用户划分为系统管理员、机构管理员、量表管理员。系统功能性需求分
随着搭载在网络上的服务数量和种类的不断增加,网络中的设备也在向多元化和位置分散化的趋势发展。这种情况在提高了网络复杂性的同时,也提高了故障管理的难度。因此,告警关联分析作为故障管理的重要手段之一受到了广泛的关注。其主要目的就是通过对告警数据进行压缩、过滤及分析等操作找到数据之间潜在的关联性,并通过这些关联信息从一组告警序列中推理出指示故障根源的告警。目前,在告警关联分析方面的研究已经有了较大的进展
光纤通信以其传输容量大、传输距离长、保密性好等优点已经成为当今通信领域中一种重要的通讯方式[1]。凭借其在传输过程中保持波形、速度、幅度等不变的特性[2-4],光孤子成为了光纤通信中最具前景的介质。目前,光孤子研究的主要实验平台是锁模光纤激光器,因此对于光纤激光器的一些理论研究也就非常重要。在理论方面,光孤子在光纤中的传输可以用非线性薛定谔方程来建模[5],孤子解是在研究非线性模型中的一个重要方面
目前学术上已积累了许多关于移动边缘计算环境下任务卸载方法研究,但仍存有不足之处。一方面,目前的研究工作主要以最小化平均时延或最小化整体时延为优化目标,忽略了不同任务差异化的时延需求,导致大量任务无法按时延约束完成;另一方面,针对用户移动性造成的用户服务质量(Quality of Service,QoS)下降问题,当前研究只考虑如何通过迁移或者动态卸载提升QoS,而忽略两者之间相互依赖的关系以及对Q
近些年,移动设备数量快速增长,工业互联网、高清视频等业务场景不断涌现,致使网络中的数据流量激增。上述发展现状不仅需要移动通信网络具备更强的承载能力,并且对网络的稳健性以及泛在能力提出了更高的要求。面对这些挑战,仅靠增加接入设备、提高网络带宽难以从根本上解决问题。卫星通信的发展为应对以上挑战提供了新的思路,利用卫星实现全球无缝覆盖,并通过广播、多播技术进行高效的内容分发,在一定程度上可以弥补地面通信
随着光通信的发展,光纤通信的大容量优势已经使其成为最为主要的通信方式,光纤通信的安全性也越发重要。混沌光通信由于初值敏感性以及类噪声的特点成为了近年的研究热点。虽然激光混沌系统能够在类噪声的载波中隐藏信息,但是通过统计特性分析,其最为重要的时延密钥可以被破解,从而使得窃听者能够重构系统,威胁到系统的安全。而且,由于激光混沌系统对于时延密钥的依赖性太强,导致其非线性程度不够,密钥空间较少,也不利于系
随着云计算和大数据时代的到来,互联网时时刻刻释放出的海量数据在各行各业中发挥作用。当越来越多的大数据出现在云端,数据的使用边界问题、数据的个人隐私问题等问题也接踵而至。欧盟发布的《通用数据保护条例》明确了当企业或组织出于某种用途想要收集用户的隐私数据,在此之前必须经过用户明确的同意,如果企业或组织想要修改数据的用途,需要用户的再次同意。同时,企业或组织在使用数据时,不可将数据用于反推用户的隐私。出