论文部分内容阅读
为了解决视觉语言导航任务中存在的导航准确率低与泛化能力弱的问题,在Regretful模型的基础上,提出了一种基于余弦相似的视觉语言导航算法。通过增加余弦相似损失函数来指导神经网络,学习预测导航方向,减小了特征空间中类内特征的差异,增大了类间特征的分布范围,提升了无搜索策略模型的导航准确率。同时提出了一种全景视图特征平滑方法来进行数据增强,提升了模型的泛化性能。实验结果表明,该算法改善了模型在R2R(Room-to-room)数据集上的导航准确率等多项指标,效果优于Regretful模型,验证了所提方