面向视觉对话的自适应视觉记忆网络

来源 :电子科技大学学报 | 被引量 : 0次 | 上传用户:hether_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉对话中最具挑战的难点是视觉共指消解问题,该文针对此问题设计了一种自适应视觉记忆网络(AVMN)。该方法直接将视觉信息存储于外部记忆库,整合了文本和视觉定位过程,进而有效缓解了在这两个过程中所产生的误差。此外在很多场景下,仅依据图片便可对提出的问题进行回答,历史信息反而会导致不必要的误差。因此,模型自适应地读取外部视觉记忆,并融合了残差视觉信息。实验证明,相比于其他方法,该模型在各项指标上均取得了更优的效果。
其他文献
在非均匀杂波环境下,被干扰目标污染的训练样本会严重影响空时自适应处理(space-time adaptive processing,STAP)性能,需进行剔除。该文提出一种基于输出信杂噪比(signal-to-clutterplus-noise ratio,SCNR)的训练样本选择算法,以输出SCNR值作为检验统计量进行样本筛选,当样本的杂波特性与目标距离环(cell under test,CUT)越相近,则基于样本设计的STAP滤波器对CUT的杂波抑制性能就越好,输出SCNR越高。此外,该文利用子孔径协
相比于经典的隐马尔可夫模型,量子隐马尔可夫模型有着求解速度快和参数数量少的优点而备受关注。但是在从经典到量子的转变过程中,可以发现量子隐马尔可夫过程与量子开放系统有着紧密的联系。不同于前人的研究,该文从开放量子系统出发,研究了量子隐马尔可夫与开放系统所对应的主方程之间的联系,并展示了两个工作:(1)研究了量子开放系统的条件主方程和量子隐马尔可夫模型之间的联系,并以量子输运系统为例,从理论上得到了量子条件主方程和量子隐马尔可夫模型之间的对应关系;(2)提出了一种基于极大似然估计思想的学习算法来解决量子隐马尔
频域插值是一种广泛应用于多音信号频率估计的方法。为了提高相邻单音分量频率间隔较小时的频率估计性能,该文提出了一种基于两阶段加窗插值的频率估计算法。该算法采用一种新的支持任意窗函数的插值器来估计频率,通过在不同的阶段选择不同的窗函数,可以在不损失信噪比的前提下减少多个单音分量之间的相互干扰。数值结果表明,该算法具有比现有算法更好的估计性能,特别是在相邻单音分量频率间隔较小的情况下。
"亚失稳"研究试验区滇西北短周期测震台网测得的2021年5月21日云南漾濞6.4级地震序列显示,主震发生前约3d内在破裂区北西段依次出现相邻区域的前震时空丛集;后续临震时段(主震前约1h)的前震从破裂区中心开始对称地向两端快速扩展,随后爆发主震。不同时段的前震空间分布显示了地震进入短临阶段后断层不同部位破裂的时空迁移及快速扩展,扩展速度由前震丛集过程的约5km/d提高至临震时段的约96km/d;主
相位匹配协议是最近被提出的一种能突破密钥容量的量子密钥分发协议,其安全性得到了理论和实践的证明。针对实际应用中光源的非理想性,基于弱相干态光源,提出了一种二诱骗态相位匹配量子密钥分发方案。该方案在简化参量计算式的同时,仅采用2个诱骗态(真空+弱诱骗态)对求解最终密钥生成率的必要参数进行了估计;随后以光纤信道为背景,对该方案在理想及统计波动情况下的性能进行了仿真分析。仿真结果表明:在同等诱骗态数目条件下,二诱骗态相位匹配方案能突破密钥容量的限制,密钥生成效率及最大传输距离均优于BB84协议、测量设备无关协议
抗体广泛用于各类疾病的预防、诊断与治疗。然而,治疗性抗体研发的成功率还不尽人意。不少抗体因为稳定性差,溶解度低,存在交叉或自身相互作用等可开发性缺陷而最终开发失败。候选单克隆抗体能否开发成功,与其理化性质息息相关。虽然已有多种实验方法测定抗体交叉或自身相互作用相关的多种理化特性,但实验测试费力费时费钱。现有的抗体可开发性计算方法,或者依赖于结构,速度慢,通量低;或者未提供可用的软件或在线服务;或者提供的计算服务或软件费用过高;或者预测器的性能与健壮性有待提高。该文仅基于抗体序列,采用二肽期望均值偏差为特征
以数字预失真为代表的线性化技术,是提高大功率发射信号质量的重要手段。该文设计了一种数字预失真方案,研制了样机,并在X波段100 W行波管发射机上进行了实验验证,取得了对发射信号质量改善的效果:矢量误差模(EVM)从8%下降到5%,三阶交调降低约10 dB,变功率输入时通道间相位一致性改善约10°,时域峰值−3 dB宽度改善了1.33μs。在此基础上,该文从时域、频域等角度分析了数字预失真技术对发射信号质量的改善作用。
同震重力变化可为位错模型的检验和约束提供新数据。文中利用指数函数和阶跃函数法分析了玛多M_S7.4地震震中距≤800km的5个重力台的同震重力信号。结果显示:观测和位错模型模拟结果的方向一致性好,只是量级存在差异。通过对同震重力变化精度的讨论,同震重力变化和GNSS垂直位移的比较,九寨沟M_S7.0、玛多M_S7.4同震重力变化空间分布的分析,以及漾濞M_S6.4地震对同震重力变化影响的改正,分析
针对基于设备到设备(device-to-device,D2D)的蜂窝网络下车载无线通信技术(cellular-vehicle to everything,C-V2X)中复用蜂窝用户资源带来的能效问题,提出了一种能效优化算法。通过新的功率控制方法最大化车载用户(vehicle user,V-UE)总能效,并利用能量收集技术提高V-UE能效。该算法采用拉格朗日乘数法减少约束条件数目,利用改进的Dinkelbach方法将原问题转换为等效减式优化问题,并求出V-UE功率控制范围。数值仿真结果表明,该算法能够在V-
为解决当前连续面部表情生成模型易在表情密集区域产生伪影、表情控制能力较弱等问题,该文对GANimation模型进行了研究改进,提高对表情肌肉运动单元AU控制的准确度。在生成器的编码和解码特征层之间引入多尺度特征融合(MFF)模块,以长跳跃连接的方式将得到的融合特征用于图像解码。在生成器的解码部分中加入一层逆卷积,便于MFF模块添加,更加高效合理。在自制的数据集上与原网络进行对比实验,表情合成的准确