【摘 要】
:
当前,图像对象识别和检测技术已经日趋成熟并在交通、运动、医疗等领域得到较为广泛的应用。在图像对象识别和检测技术的基础上,视觉数据生成自然语言描述在计算机视觉领域成
论文部分内容阅读
当前,图像对象识别和检测技术已经日趋成熟并在交通、运动、医疗等领域得到较为广泛的应用。在图像对象识别和检测技术的基础上,视觉数据生成自然语言描述在计算机视觉领域成为进一步研究的重点。图像生成自然语言描述不仅要求准确识别图像对象,还要识别图像中不同物体之间的相互联系,能够生成之前未见到的环境与互动的自然语言描述,使之接近人类描述。现有模型中,图像描述生成技术不够精确,与人类描述存在诸多差异,模型生成的句子结构较为简单,不能准确全面地描述图像的丰富内容。本文提出了基于特征融合的图像自然语言描述算法,算法模型与实现主要分为以下几个部分。对于图像和文本特征编码的问题,提取图像的多维特征,包括图像的灰度特征、纹理特征和基于尺度不变的关键点特征,使用深度卷积神经网络作为图像编码器提取图像深层次特征。文本特征编码使用自组织竞争神经网络进行聚类,得到精确的文本标注作为文本的编码特征。对于将图像和文本不同空间特征融合的问题,本文使用典型相关性分析计算不同特征空间矩阵的相关性,通过特征映射的方式将两类特征映射到同一特征空间融合,融合特征更高效准确地表达原始信息。对于将融合特征解码为序列化句子的问题,使用双向的长短时记忆神经网络结构作为特征解码器,这种双向的串行神经网络结构能够解决序列化预测问题,结合上下文信息进行特征解码生成细致准确的自然语言描述。本研究开发了图像自然语言描述系统,系统能够针对性地应用于实际场景,具有现实意义。
其他文献
不同原因引起肾脏慢性损伤后,肾功能大多呈进行性发展,直至发展成为终末期肾病,这种肾功能的损害通常是漫长不可逆的。由于早期肾病患者的症状并不明显或者没有任何的症状,因
企业整合的过程不但是物质资源的有效重组和再分配的过程,更是文化资源的再吸收、再融合、再统一的过程。作为中石油工程技术服务板块专业化重组的率先垂范者,西部钻探公司成
采用单因子评价法和内梅罗指数法对湖南郴州柿竹园矿区乡镇地下饮用水源丰、枯水期重金属进行水质评价。结果表明,Fe、Mn、Ba、Zn、Cu、As、Pb、Ni、Cr、Cd和Hg等重金属在矿区
纳入87名牙周健康的青年志愿者,测量并记录上前牙区以下数据:牙龈厚度(GT)、角化龈宽度(GW)、龈乳头高度(PH)和牙冠宽长比(CW/CL),用聚类分析法对牙周表型归类。结果提示在一定的中国汉
WNT(wingless-type MMTV integration site family)基因是重要的细胞信号分子,在胚胎发育过程中参与决定细胞命运、细胞增殖、分化、运动及凋亡,其靶基因包括参与细胞发育、细
温润的原木可以融进各种风格的家居装饰中,不显突兀,还能给你带来一点点画龙点睛的惊喜。你只需要一些本来没用的木头,一些胶,锯子,剪子,砂纸,就能做出各种各样的木质家居装
Chiari畸形(CM)是一种以小脑扁桃体下疝为主要特征的先天性后脑疾病。临床上根据其病变程度分为Ⅰ-Ⅳ型,其中Ⅰ型临床最常见。该病的诊断主要依赖影像学检查,同时结合临床相关
针对嫦娥三号探测器两器释放分离过程几个关键力学问题,给出两器释放分离过程的主要风险点与影响参数,应用ADAMS建立两器释放分离全过程仿真模型,开展了全过程动力学仿真与相
介绍了一种广播信号全波段监测记录系统,其采用了软件无线电、大动态范围高速信号直采、欠采样等先进架构和软硬件技术,可将中短波信号和调频信号进行全频段记录流盘,并且可
《洛阳伽蓝记》成书于公元547年,描绘了五六世纪之交北魏首都洛阳城内以及东、西、南、北周边地区1300多座佛教寺院的繁荣景象,作者杨炫之不仅用优美的笔触记述了洛阳佛教寺院