基于偏置缓解的场景图生成研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:SURE181709394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图生成任务是对图像理解的一种结构化表示形式,这种表示形式不仅可以为基本的目标识别任务提供上下文线索,还可以为更广泛的高级视觉任务提供价值,应用前景十分广泛。针对模型中的单峰偏置问题和数据集中的数据偏置问题,论文首先研究模型单峰偏置缓解,通过引入协同策略来缓解单峰偏置,并基于提出的场景图生成模型展开数据偏置缓解的研究,重点研究了奖惩策略下和类平衡策略下的场景图生成方法。主要工作内容如下:(1)针对模型中存在的单峰偏置问题,论文提出了一种协同策略下的模型单峰偏置缓解方法。该方法基于协同策略中的“1+1>2”的思想,以注意力机制的方式用视觉信息引导易于学习的语言先验去缓解单峰偏置中的模态偏置问题,并引入结合无限制评价指标与有限制评价指标的综合性评价模块去缓解单峰偏置中评价偏置问题。实验结果证明视觉与语言之间的有效协同和两种评价指标之间的相互协作协同均能使模型获得更合理的预测结果。(2)针对数据偏置中的头尾数据极度不均衡问题,论文提出一种奖惩策略下的数据偏置缓解方法。该方法基于人类形成场景结构中的学习机制,对于稀少类别样本的尾部使用奖励策略以不同域知识互补奖励稀少类别样本,对于富余类别样本的头部使用惩罚策略以调制因子抑制并降低冗余类别样本。实验结果证明该方法有效地改善了目标层和谓词层的尾部类别的分类性能,消除了冗余头部类别带来的消极影响,从而有效缓解头尾不平衡分布落差。(3)针对数据偏置中的整体类别分布不平衡问题,论文提出一种类平衡策略下的数据偏置缓解方法。该方法根据有效样本空间的边际效应,利用在不重加权和重加权之间平滑地调整类平衡项,并与奖惩策略下的数据长尾偏置缓解方法共同构成最优方法去生成场景图。实验结果证明所提方法能决定最佳的决策边界,并从全局性的角度进一步缓解了整体类别分布的不平衡。总之,论文从针对于场景图任务中模型偏置缓解和数据偏置缓解展开研究,提出了基于偏置缓解的场景图生成方法。在VG数据集上的实验结果表明,论文所提方法有助于模型更好地学习数据,从而生成准确且含义丰富的场景图。
其他文献
氨基酸变异的耐受性,指的是蛋白质对其位点上发生的氨基酸变异的容忍程度。耐受性高的变异通常对蛋白质功能没有影响,也被简称为中性。相反,耐受性低的变异大概率有害,其中发生在人类蛋白质上的低耐受性变异常被称为致病变异。用计算方法预测变异耐受性比实验方法预测速度快、成本低。已报道的研究方法仅集中于对人类物种中发生的氨基酸变异的致病性进行预测,尚缺乏对多物种氨基酸变异耐受性预测的模型。本文拟采集多物种氨基酸
学位
随着移动互联网的快速发展,网络中的数据量正在以指数级别快速增长,信息过载问题则随之出现,该问题导致用户很难从互联网海量的产品或服务中找到自己真正感兴趣的。为了提升用户的体验以及企业的经济效益,推荐系统应运而生。一个有效推荐系统的核心是能根据用户历史交互准确建模用户偏好,并根据用户偏好来个性化地向用户推荐物品。现代推荐系统虽然蓬勃发展,但始终受数据稀疏和冷启动问题影响。作为图神经网络的一种,超图神经
学位
视觉对话是一种跨模态数据交互任务,该任务是基于一幅给定的图像以及多轮对话历史让AI agent(代理)回答给定的问题,形成一段围绕图像内容展开的连续对话。本文针对现有方法因未关注到不同模态之间的交互信息而无法完成跨模态指代消解问题,分别从视觉和文本角度进行跨模态指代消解,同时提出新的表征机制将不同模态提取的特征进行更好地融合学习。主要研究内容如下:(1)针对视觉与文本模态缺乏交互性而导致的视觉目标
学位
随着智能手机的普及以及移动互联网的发展,空间众包成为了共享经济时代下传统众包发展的新方向。空间众包的核心操作是任务分配,即将具有时空特征的任务分配给空闲的工人。多个空间众包平台的存在使得合作成为可能,各平台以共享任务与工人的方式进行合作,帮助其他平台完成原本难以完成的任务,从而实现更优的任务分配以及总收益的扩大。此外,空间众包平台也能利用大数据来驱动更智能的任务分配,基于联邦学习技术共享各自的数据
学位
知识图谱问答以结构化的知识图谱作为答案来源回答用户提出的自然语言问题。在已有的知识图谱问答方法中,基于查询图的方法广受关注。基于查询图的知识图谱问答方法包含查询图生成和查询图选择两个主要模块。其中,查询图生成实现问句的语义解析,将问句转换为一组候选查询图;而查询图选择是从候选查询图集合中选出最优查询图,并从知识图谱中检索答案。尽管基于查询图的知识图谱问答方法取得了一定的进展,但其在复杂问句的语义解
学位
“双减”政策强调学校要满足学生多样化的学习需求,制定丰富的课后服务实施方案。作为初中物理教师需要在课后服务中积极开展科普活动、科学社团课。义务教育物理课程标准指出,有效地开发和利用课程资源是切实提高物理教学质量的有效手段。所以在设计新授课、延时服务课时,如何筛选、开发、应用课程资源以加深学生对基础知识的理解、激发学生科学兴趣、拓展科学视野,成为一线物理教师必须解决的问题。国家为提高国民科学素质,除
学位
元学习作为近年来机器学习领域提出的一种新范式,旨在从多个任务中学习经验,从而更快更好地适应于新任务。作为元学习的重要应用场景,小样本学习旨在研究样本稀少情况下学习算法的泛化性问题。目前,研究者们已提出众多有效的元学习算法,使得小样本分类任务的准确性得到提升。然而,我们发现这些算法仍然存在待解决的问题,比如样本数据的复杂性、噪声数据或模型假设所引起的不确定性问题,阻碍了现有模型的进一步提升。针对上述
学位
语义角色标注(Semantic Role Labeling,SRL),又称为浅层语义分析,其目标是识别句子的谓语论元结构,包括句子中的所有谓词,以及谓词相关的论元。首先,为了解决多领域SRL数据集匮乏的问题,本文人工标注了一个较大规模的多来源多领域汉语SRL数据集,进而开展了跨领域SRL方法探索。考虑到语义和句法的紧密联系,本文的另一个重点是如何在跨领域SRL模型中有效地使用句法信息。本文尝试了两
学位
近年来,我国的交通系统飞速发展,各类交通工具不仅丰富了人们的出行选择,也拉近了人们的地理空间距离。与此同时,城市的交通拥堵现象日益严重,不仅增加了人们的通勤成本,还容易导致特大安全事件的发生。为了缓解交通拥堵带来的各种影响,城市路况的精准预测显得尤为重要。其中,交通流预测旨在分析交通流的历史规律,从而推演未来的交通演化情况。本文将重点研究交通流预测技术的发展,分析现有研究方法的优势与不足,并提出针
学位
随着金融交易市场的迅速发展,互联网金融和移动金融逐渐成为投资交易的新型金融业务模式,这给投资者带来了极大便利的同时,也使得金融市场的交易数据呈爆炸式增长。在金融资产的交易过程中,订单流的限价指令信息形成了限价指令簿。投资者能够利用限价指令簿来预测金融资产的价格趋势,并根据预测的结果进行交易决策。目前,限价指令簿趋势预测的主流方法是深度学习方法,其中大部分方法只采用限价指令簿的事实信息,少量方法会兼
学位