论文部分内容阅读
随着AI技术的发展,现如今的人机交互技术已经不再是传统的鼠标键盘交互,加入AI、VR已成未来之趋势。目前,AI交互技术在教育得到了广泛应用,从语音交互、视觉交互等技术的慢慢发展与应用过程中,多模态交互技术已成刻不容缓之势。视觉问答是将一个图像和一个相关的问题输入到机器中,然后得到正确答案作为输出的一种任务。将视觉问答(VQA)技术融入到教育中进行智能交互,是接来下研究的方向。幼儿图画教育主要分两个方面理性认知和感性认知两个方面,理性认知包括对于物体的数量、颜色、位置、物体等基础认知功能的提升,感性认知是对于图画中情绪感知能力的提升。因此幼儿阶段的图画训练可以率先为视觉问答技术与教育的结合提供一个很好的试验环境。基于以上分析,本文针对幼儿教育中的基础认知能力和情感感知能力培养引入了视觉问答技术。输入的图像和问题都来自于VQA-abstract剪贴画数据集以及与本文实现的Web3D问答场景风格一致的自制三维数据集,这与幼儿教学中的图画书内容相仿。由此,本论文基于联合嵌入的VQA模型思想,在不影响VQA模型原始性能的情况下,增加了情感检测器,组合成新的情绪视觉问答网络,该网络与普通VQA模型有所不同,将问题和情连接为一个句子,再将图像,问题进行联合嵌入,最后利用分类器处理特征。实验结果表明,本论文的模型通过在答案中加入情感信息,丰富了对图像的分析和理解,同时仍能保持当前普通VQA baseline模型范围内的准确性水平。最后,本论文将此视觉问答算法导入到构建好的Web3D教育平台中,使用MVVM模式对平台应用的数据、模型、视图进行分层,形成了模块化的框架总体架构,具体达到了虚拟课堂所必须的界面组件和功能模块。该平台可以评估孩子们在多大程度上能够通过3D场景图片进行概括。同时,该平台还提供一个交互框架,基于WebGL和three.js技术,让孩子在虚拟3D机器人的陪伴下进行相关图画的学习。该Web3D交互设计在结构层次上也有着有不同的细节,以提高幼儿图画的基础认知能力和情绪感知能力。