基于多模态融合的细粒度视觉解释生成模型研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:XXLXSJXXLXSJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在计算机视觉领域,基于深度学习的细粒度目标分类算法已取得较大成功。然而仅仅获得简单的预测结果对于理解机器智能是不够的。能够解释视觉系统为什么会产生某个输出结论并获得其对应视觉证据才是理解人工智能交互系统的关键性因素。因此提供具有较好的判别特性、能够解释预测系统决策内在原因、并进行可视化的视觉解释模型是很有必要的。本论文主要从以下两方面进行研究。1、以加州理工学院细粒度鸟类识别数据库具体研究对象,结合数据库中标定的鸟类特征描述性文字,研究多模态细粒度识别算法通过增强学习、多模态紧凑型双线性信息融合方式,有机地将视觉目标分类和视觉解释生成两个方面的网络结合成整体,同步生成具有较好类别鉴别力的自然语言解释性语句,避免了视觉解释生成模型对语义标签的过度依赖。2、利用图像空间信息,在生成视觉解释的过程中提出了一种可视化网络模型G-CAM,生成与视觉预测结果相对应的视觉热图,显示解读决策的信息利用情况。本文的研究工作重点尝试解决了两个主要问题。(1)同步实现细粒度目标的类别预测和解释过程;(2)明确分类结论预测过程的内在视觉属性并实现可视化。论文工作在公开的加州理工学院鸟类数据库上进行了测试。实验结果表明,本论文所生成的视觉解释语句在语义表达方面均有不错的表现,证明了我们所提的模型具备良好的优越性。
其他文献
乡村旅游起源于19世纪的欧洲,至今已有100多年的历史。目前,法国、美国、日本等发达国家的乡村旅游已具有相当规模,走上了规模化、专业化、创新化的发展轨道,积累了丰富的发
<正>为了进一步完善上海市多层次医疗保障体系,减轻基本医疗保险参保职工自费医疗费负担,更好地发挥职工医保个人账户医疗保障作用,根据《关于职工自愿使用医保个人账户历年
<正>陕西人艺版话剧《白鹿原》西安站开票当日,票房轻松破20万,创造西安话剧史上票房奇迹,同时陕西境内又惊现"白鹿"仙草,让人惊讶不已。票房如此火爆,主办方紧急磋商,决定加
创新师范教育实践教学模式,提高实践育人水平,是当前推进师范教育教学改革,提高人才培养质量的重要课题。为了提高师范生的教学实践能力,提升学校办学水平和教学质量,甘肃民
<正>血培养的方法学;血培养与败血症;败血症的细菌学特征;结束语一、血培养的方法学手工方法:增菌、观察、涂片、镜检、分离培养、鉴定、药敏试验;
会议
农产品区域品牌是传递农产品品质信息的新途径。发展区域农产品品牌,可以促进地区农产品品牌的发展,有效解决农产品滞销问题,形成稳定的市场份额。中国陕西周至县是世界公认的优质猕猴桃生产最佳区域之一。周至县猕猴桃被评为“国家地理标志”产品,在国内外享有极高的信誉。因此,开展周至猕猴桃区域品牌建设研究,总结周至猕猴桃区域品牌建设经验,为政府制定周至县猕猴桃区域品牌政策提供依据,为区域农产品品牌发展和周至县农
目的:探讨磁共振体素内不相干运动(intravoxel incoherent motion,IVIM)技术应用于贵州小型猪心脏检查的可行性。探讨基于IVIM的磁共振技术对贵州小型猪急性心肌梗死模型定量评估微循环的可行性。方法:1、选取健康贵州小型猪8只,行心脏磁共振IVIM扫描。磁共振检查前实验动物需禁食12小时、禁水6小时,肌注麻醉成功后进行清洁、备皮。2、使用GE3.0T静音磁共振(Disco
江苏省南通市二甲中学是一所创办于1956年的农村完中,在南通这个教育竞争比较激烈的环境中,生源、师资、区域经济差异等方面的压力不可回避,这既造成了学校在发展上的困境,也促使
针对目前波谱解析课程教学中存在的问题,本文提出可以从改革教学内容、提高学生学习兴趣、开设综合性设计性实验课程、提倡学生加入研究生课题组、改革考核方式等入手来提高
<正>潘敏,男,本科学历,中小学高级教师,现任江苏省常州市新北区奔牛实验小学副校长。曾获全国科研型教师,江苏省教育学会先进个人,常州市小学语文学科带头人,常州市华英奖,常