基于视觉问答的学前儿童数学学习教育方法

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wdbbzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动解答是人工智能领域长期存在的研究问题。该问题旨在开发一种算法,使其可以完全自动地从学龄前儿童的教科书中产生可读解决方案。近年来随着自然语言处理(NLP)和机器推理技术的改进以及对更智能教育服务的迫切需求,该问题已经成为许多研究问题的焦点。由于研究和应用的巨大潜力,许多视觉问答(VQA)问题方法已在许多领域提出并实施。其中VQA还涵盖计算机视觉(CV)和自然语言处理(NLP),但与VQA不同,视觉问答仅关注图片中的特定成分。然后根据一些常规问题,相关问题仍然需要特定的常识推理才能回答。并且基于初级1-3级教科书,他们获得熟悉物体的信息图像。在我的论文中,我已经在视觉问答和语法语义模型框架的问题生成中表达了我的工作。我已经表达了视觉提出问题的类别以及它们出现的表达方式。最后,我们已经证明了这样的结果:机器提出的问题似乎衡量了个人短语的词汇能力,这个短语与教练写的问题和词汇能力的统一判断有关。1.研究内容包括两个方面:1.1从教科书图像中完全自动提取算术问题。1.2其次,为学龄前儿童数学学习提供基于VQA和语法-语义模型的交互式智能辅导系统。通过更广泛地生成许多问题,或者学习者学习算术能力。在我们的研究中,我们的工作重点是自动化此过程。特别是,它更注重从教科书个人图形自动生成数学学习问题的问题。2.在本节中,我们的研究描述了生成计算任务的整个流程,这些任务出现在机器提出的阅读原始数学书的算术问题中。以下示例和他们的讨论将实现以下目标:2.1举例说明视觉问题回答任务这项任务和几个细节问题;2.2确定此对象的名称,因为工作无法完成所有任务;2.3与语法一语义模型中的其他问题建立关系,并总结该模型的方法和系统如何帮助自动回答问题。在计算机视觉(CV)和自然语言处理(NLP)组中,视觉问答(VQA)具有包含公认的加速注意力的复杂挑战。从图像或物理语言问题来看,它需要对图像的图像对象进行分析,并产生与推理相关答案的材料。3.虽然我们的研究将这些涉及视觉问题回答并说明了相关的任务,但我们的工作提出了一些方法。该部分描述了可见问答的结构,图3.1阐明并描述了我们对结构的实现。在第4章中,它将从本质上评估该工具的某些部分,并将其分析为其他可能的方法。本文提出了一种用于解决算术图形问题的共享框架和两种算法。在第1步中,通过调整或翻译单词,将图像中的对象及其数量转换为更直接的声明性表示。该研究涉及根除和澄清图像的过程或将对象的数学关系放在一起。未来的工作可以适应其他语法一语义模型,将这些项目转换为本节中的算术关系。在第2步中,通过实现明确定义的句法转换(语法语义模型,数学算术模型等)的排序,将所提出的一串单词转换为许多问题。由于输入内容的各种单词串,这些字符串的各种变换可能会变得不同,从而产生最好的问题。在第3阶段,一些问题按照列出的功能和材料句子,输入的一串单词,相关问题和生成中使用的转换进行评分。它提出了一个用于解决显式算术问题的共享框架。这是开发共享框架的第一个,因为现有方法可以从单个图像中提取对象及其数字。文本中使用的问答数据集由问答对和问答对组成。问题的形式是开放的,有多种选择,相应的答案由1-2个单词组成。为了研究图片中包含的信息量和问题,我们只设计了问题(BoWQ,LSTM+Q,deeperLSTMQ),只设计图像(I)和两者(BoWQ+I)。在LSTMQ+I,DeepLSTMQ+范数1)的情况下回答了问题的结果。单独使用一个方面不能获得好的结果。本文提出的模型是开放的。公式和多个选择都具有最佳结果。作为一个简单的模型,VQA获得图像特征和嵌入句子以及多层感知器(MLP)运行。因为可以观察到相关的方法,所以仍然可以使用与单词嵌入相关的三层长短期记忆模型。为了得到一个明确的结论,将嵌入字精确地融合到接合层是有效的,然而,上述方法几乎具有最先进的性能。同样,可能不需要四个完全连接的层来实现更好的性能。但是我在一些程序之后仍然使用该方法,并且该方法的性能优于包含应用多个层的方法。最重要的是,本章展示了视觉问答的几个阶段结构,以及我们对该结构的应用。为了绘制第2章中展示的许多但并非所有任务而组织的结构,获得了两个基于学科的内容,这些学科摘录了图像描述并将其转换为候选问题,接下来通过统计方法逐步采用工具来描述更好的问题先于学习者。该工具从复杂的信息中提取信息,包括问题的表述。它使用深度学习和相关应用程序来使工具更有效,更强大,并且对于手工编码具有挑战性的现象。该研究开发了测试问题生产工具因素结果的实验。在前面的章节中,研究显示了一种用于视觉问答的结构和应用工具。现在,我们考虑继承的实验评估通过该工具生成的问题的性能。该系统显示了两个类别的实验。首先,它显示了评估工具单个部分的实验:显示对工具第一阶段中简化描述提取部分的评估。显示一个实验,评估复杂语言类别在生成单词时的识别能力。显示评估问题的实验。接下来,在这些实验之后,该研究通过在图像和文本级别上判断测试集图像的性能和问题数量来评估这些问题回答工具。这些判断使用了判决申请人的修改版本来表达问题。在这一部分,我们探讨了以下研究问题:简化图像语句提取器是否从复杂图像中的固定范围中提取流畅和语义正确的数学表达式。此提取器的结果与熟悉的图像压缩方法的结果相比较。在这一部分中,我们的研究评估了通过摘录提出的简化图像,但没有评估它们产生的问题(我们的研究判断端到端申请人的输出)。为了判断提取器,该研究从随机的相似主要教科书图像集合中选择了几个图像。对于实验,我们确定基于1-3级基础教科书,因为他们获得了具有相当对象结构的简单信息图像,而不是更高层次解释我们表达的提取方法的优点,这可能有助于我们理解结果。教育工作者没有可能出现在复杂图像中的进一步预处理错误。4.除此之外,我们还会显示错误评估,以澄清该工具中不良问题的主要材料。向学习者展示外在评估本申请人协助教育者编写阅读材料的内容。该研究还对问题提出结果进行了结论预期,研究了通过该工具提出的错误类别,并研究了学习者如何应用我们生成的问答系统的因素。我们的目的是生成一个视觉问题回答(问题开发)的工具,它可以为输入带有一些检测到的对象的图形(例如,教育工作者可以选择从教科书中增加组件的卡通图片),并作为关于问题关系数量的产生依据。为了生成过程或查询部分以评估学习者是否能够理解数字及其算术关系,学习者可以选择并回顾这些关于其主题的问题。关于图形内容的问题生成应该集中在一起,它不是表达数字关系信息而不是假设的单词上下文。虽然明显对象的问题生成计数图片也很有趣,并且具有教育意义,同事如何将问题转移到视频,让机器人实现自动教学,我们将这些问题留给未来的工作。
其他文献
当今时代经济快速发展,企业都在追求利润的最大化,在产品质量相差不大的情况下,对于产品成本管理就显得尤为重要。作为汽车重要组成部分的空调系统制造企业,随着生产技术和机器设备的不断优化,企业自动化水平逐步提升,制造费用占产品总成本费用的比例也不断增高,传统的成本核算方法往往通过单一的标准对制造费用进行分配,在企业制造费用占比较大的现阶段,会导致核算出的产品成本信息存在一定的误差。而作业成本法的引入可以
结合主力矿井及资源整合矿井继电保护的实际情况,在分析继电保护原理的基础上,结合资源整合矿井继电保护存在的问题,提出了35 kV矿井变电站继电保护改造方案并予以实施。应用
随着对区块链技术研究的深入,区块链技术面临的一些问题也逐渐暴露,例如交易吞吐量过低,区块链容量消耗过大等,其中对区块链技术发展制约最严重的就是交易吞吐量过低的问题。
目的:探讨腹部闭合伤合并颅脑损伤的早期诊断和治疗。方法:分析204例腹部闭合伤合并颅脑损伤病例的临床资料。结果:治愈150例,好转36例,死亡18例。结论:腹部闭合伤合并颅脑损伤病情
首山一矿岩巷下山施工中,由于巷道穿层,顶板控制难度较大,且工作面排水、排矸等系统复杂,工序繁多,造成劳动效率低下,月进尺低,严重影响岩巷掘进速度。首山一矿在己二辅助轨
在互联网时代下,数字化技术高速发展,随之而来出现了大量数字化内容。如何管理数字版权侵权现象成为当今的一个难题。国内外针对数字版权保护已有了一些技术成果,能在一定程度上保护数字版权不受侵权,但是这些系统还存在易受攻击、确权周期长、维权成本高、隐私泄露等一系列问题。因此本文针对当前存在的问题提出了一种基于智能合约技术的解决方案。该方案具有去中心化、可溯源、不可篡改等特点,能弥补目前数字版权保护系统中的
在中国制造2025的强大时代背景下,智能机器人逐渐应用到各个领域,极大的提高了生产效率与产品质量。目前,机器视觉仍然是制约工业机器人发展的重要技术之一,当下国内的汽车零
目的:结直肠腺瘤为结直肠癌的重要癌前病变,了解其发生的影响因素,对结直肠肿瘤的防治意义重大。本研究通过回顾性分析福建地区结直肠息肉发生与血脂及尿酸的关系,以期发现结直肠息肉发生的影响因素,为预防结直肠肿瘤的发病提供一定指导。方法:本文纳入2016年1月至2018年10月我院住院期间通过电子结肠镜检查后诊断为结直肠息肉、肠功能紊乱、肠易激综合征的患者共563例(其中结直肠息肉患者412例,未发现息肉
肝硬化合并上消化道出血是肝硬化患者常见的并发症及主要死亡原因之一。其发生原因主要是由于食管、胃底静脉曲张破裂或门静脉高压导致胃黏膜弥漫性出血、糜烂、溃疡所致呕血
详细介绍了水力冲孔技术的方法、增透原理以及该技术在郑煤集团大平煤矿的试验情况。结果表明水力冲孔技术能有效增大钻孔的直径,增加煤体的透气性。