【摘 要】
:
身处于大数据时代中,图像描述生成算法研究对信息的检索筛选具有重要意义。图像描述生成系统是一个跨视觉域和语言域的多模态系统,是由视觉目标识别定位、视觉目标区域与语义之间的匹配和自然语言生成三个模块组成。具体流程为,首先通过卷积神经网络提取图像的视觉特征表示图,基于特征图的信息进行目标识别定位。然后将定位后的视觉区域与词典中的语义词之间进行一致性匹配,得到视觉-语义一致的语义词集合。最后利用记忆等序列
【基金项目】
:
面向数据智能标注的弱监督与自学习方法及系统验证,广东省重点领域研发计划项目,项目编号:2019B010153002; 神经退行性疾病早期智能预警高级机器学习技术与示范应用,广东省重点领域研发计划项目,项目编号:2019B010109001; 面向柔性制造的智能质量检测系统及示范应用,广东省重点领域研发计划项目,项目编号:2018B
论文部分内容阅读
身处于大数据时代中,图像描述生成算法研究对信息的检索筛选具有重要意义。图像描述生成系统是一个跨视觉域和语言域的多模态系统,是由视觉目标识别定位、视觉目标区域与语义之间的匹配和自然语言生成三个模块组成。具体流程为,首先通过卷积神经网络提取图像的视觉特征表示图,基于特征图的信息进行目标识别定位。然后将定位后的视觉区域与词典中的语义词之间进行一致性匹配,得到视觉-语义一致的语义词集合。最后利用记忆等序列生成网络集成这些语义词为一个自然句子。系统中主要阶段性功能的实现分别基于图像的目标区域定位、视觉-语义对齐和自然语言生成算法。在算法落地阶段,常常会面临复杂场景的考验。当场景中出现较多实体和动作时,随之包含的语义信息也更加丰富,从而导致系统易混淆语义的主次和关联关系。场景的视觉域和语言域的一致性匹配算法会因两个域的知识形态的差异化,而导致匹配结果不理想。在自然语言生成阶段所集成的多模态特征的筛选和过滤算法难以权衡各个模态特征的重要性,影响其描述生成的质量。综上所述,当前的图像描述算法还无法在复杂场景和多模态域中取得好的效果。针对复杂场景的语义主次和关联性混淆的问题,本文提出了一种语义关联图模块(Semantic Association Graph Module,SAGM)。SAGM能够充分挖掘语义知识拓扑图中的上下文逻辑和关联关系,以语义间的邻接关系为基础逐步扩展成完整的自然语句,即语义信息关联构建算法。此外,为了让SAGM不仅仅考虑到两两语义间的关系,还要能在当前语义词与长时距离的语义词间构建起联系,本文提出了对应的基于视觉表示的记忆增强结构(Memory Enhancement Structure based on Visual Representation,MESVR)接连至SAGM后。针对描述生成任务,在数据集MSVD上对现有网络添加入SAGM进行实验,实验结果表明BLEU@4,METEOR,ROUGE-L均分别增长1%-2%。针对视觉域和语言域跨模态的一致性匹配问题,本文提出了一种视觉-语言一致性结构(Visual-linguistic Consistency Structure,V-l CS)。V-l CS可通过门结构建立起分块的视觉特征图与语义词之间的对应性关系,再经过视觉-语义匹配损失函数(Visual-semantic Matching Loss,VML)进行网络优化,尽可能将两个域的知识嵌入同一个知识表示空间中。为了增强同一表示空间中不同域之间的灵敏度和匹配度,本文提出了三角注意力机制(Triangle Attention Mechanism,TAM)接连至V-l CS之后。针对医学报告生成任务,在数据集IU X-Ray上对现有网络添加入V-l CS进行实验。与现有最先进的方法比较而言,其BLEU@1,BLEU@2,BLEU@3,BLEU@4,ROUGE-L和CIDEr指标分别为48.7%,34.6%,27.0%,20.8%,35.9%和45.2%,均达到了目前最好的效果。针对多模态特征的筛选和过滤问题,本文提出了一种多模态注意约束模型(Multimodal Attention Constraint Model,MACM)。MACM通过将注意力机制嵌入长短时记忆网络(Long Short-term Memory,LSTM)中,动态加权和对齐语义模态的属性与局部视觉模态的特征,再结合全局视觉模态与词嵌入向量一起传入LSTM的每个时间步的隐藏状态中。最后,依据LSTM的门结构特性去动态筛选重要特征并过滤冗余特征。针对视频描述生成任务,在数据集MSR-VTT上对现有网络添加入MACM进行实验,实验结果表明BLEU@4,METEOR,ROUGE-L均分别增长约2%,超越了目前最好的效果。
其他文献
快速发展的城市化进程深刻影响了区域水文循环条件,导致区域降雨时空分布格局发生显著的变化,但降雨时空异质性特征在水文分析过程中却常常遭到被简化或忽略,这一做法的合理性也越来越受到质疑。随着城市群体不断扩展,城市土地不断被开发利用,城市下垫面不透水面积也日益增大,这导致在水文过程中降雨的时空特征变化将变得越来越重要。许多学者强调深入探索区域的降雨的时空变化,是当前了解区域产汇流规律演变的关键所在,更有
组胺H2拮抗剂(Histamine H2-receptor antagonists,HRAs)是水环境中广泛分布的一类新型污染物,具有难降解的特性,对水生生物会产生一定的毒害作用。目前,传统生物处理工艺无法有效去除水体中的HRAs。溶解性有机物(DOM)在水环境中广泛存在,对有机污染物的光降解发挥着重要的作用。藻类分泌的胞外聚合物(EPS)是水环境中DOM的一大来源,且藻细胞富含的光合色素也是DO
废旧阴极炭(Spent potlining,SPL)是铝电解行业产生的一种高无机氟含量危险废物。为了解决废旧阴极炭的处置问题,本课题提出利用高炉矿渣(Blast furnace slag,BFS)中丰富的钙硅铝氧化物,在废旧阴极炭焚烧的过程中稳定化其中的氟化物,实现可浸出氟化物的解毒,并探究废旧阴极炭的热处置特性与焚烧过程中氟化物的迁移转化规律。本论文提出以废治废的方式,实现废旧阴极炭与高炉矿渣协
上世纪八十年代我国展开了电力市场化改革,自此,电力市场化进程不断推进,有效缓解电力这一基本能源的供需不平衡问题。电力市场化改革是以放开发售电环节,促进市场化竞争,实现资源的最优配置为目标,从而释放改革红利。2002年的电力市场化改革,实行“厂网分开”的方针,将发电企业从电网中分离出来,促进了电力市场的竞争。2015年新一轮电力体制改革,以“放开两边”为方针,放开发售电侧,开展大用户直购电的市场化交
在绿色发展的时代背景下,推进产业结构优化是我国经济发展的重点任务。绿色金融作为绿色发展理念应用于金融业而诞生的重要金融手段,对推进产业结构优化具有重要作用。本文从绿色金融的金融本质出发,就其对产业结构优化的影响进行了研究。首先,本文对现有研究成果进行了梳理,明确了绿色金融与产业结构优化的内涵,结合相关经济学理论厘清了绿色金融对产业结构优化的影响机理。其次,本文通过构建指标体系、选取指标的方法分别测
探究黄河流域新型城镇化与农业现代化的耦合协调状况对于黄河流域城乡一体化的发展、黄河流域生态保护和高质量发展至关重要。构建黄河流域新型城镇化与农业现代化的指标评价体系,在运用熵权法对二者进行测量的基础上,采用耦合协调模型对黄河流域新型城镇化与农业现代化的耦合协调度进行实证分析。研究结果显示:黄河流域新型城镇化与农业现代化的水平呈现逐年上升的态势,二者在空间上均存在差异性,但整体水平仍然偏低;黄河流域
新中国成立后,城镇化建设经历了爆炸式的增长。现代历史街区在这个过程中承载了城市的记忆,见证了城市的发展。那些建设于二十世纪的居住街区即将面临着拆建或改造的命运。其中不乏有许多具有开创性历史意义的现代历史街区。对于它们的保护大多数是沿用传统与近现代历史街区的保护方式,较少的从现代主义特征及价值的视角进行考虑。面对十四五规划中改造21.9万个20世纪中后期建成的老旧居住街区的艰巨任务,避免现代历史街区
在“2030碳达峰,2060碳中和”的硬性目标和国家大力发展绿色金融,构建绿色金融体系的背景下,绿色金融是否真的能发挥碳减排的作用呢?传导路径是怎样的呢?学术界关于“绿色金融对碳排放的影响”的相关文献大多都肯定了绿色金融对于碳排放的抑制作用,但对于其中的传导路径尚不明确,同时忽视了绿色金融的空间溢出效应。为研究绿色金融对碳排放的影响,本文在理论分析方面得出绿色金融可能对碳排放具有直接影响、中介影响
夏富古村地处世界自然遗产地——丹霞山风景名胜区核心区,村落与自然环境关系融洽,历史人文积淀深厚,尤其以村口的观音石、上天龙及姐妹峰等自然景观尤为精妙独特,是极富吸引力的旅游资源。然而,尽管近年来各级政府对夏富古村十分重视,投入了大量资金和精力,夏富村的发展情况却不尽人意,甚至受到建设性的破坏;因此,发展好夏富村、讲好夏富故事,是迫在眉睫的一步,也是本文研究的目的。诚然,旅游发展可以为传统村落带来经
文化自信是新时代中国特色社会主义发展中的重要命题,对教育领域影响深远。文章从文化创造、文化自觉、文化认同角度解构文化自信的生成逻辑与时代特征,调研新时代高校服装设计专业教学现状:错位发展、多维联动的人才培养模式,方向明确、结构细分的师资养成模式,东西融合、多元互鉴的课程构筑模式。在新时代文化自信引领下,围绕国家文化发展战略、内涵式质量建设、高校智慧教学模式要求,服装设计教学呈现出改革的必然性、紧迫