基于Seq2Seq模型的数学题目自动标注研究与应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户:zjr_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自“人工智能+教育”的发展战略被提出,涌现出了一批优秀的数学领域智能教育产品,这些产品的底层都依赖于知识点标注精准的试题数据。然而,现有的知识点标注工作大多仍停留在手工标注阶段,不仅费时费力,而且易出现漏标、误标等现象。数学题目自动标注可提高知识点标注效率,具有推动社会生产力发展的积极意义,但此项工作还少有人研究。因此,如何利用数学领域知识特点,构建精准高效的数学题目自动标注系统,是本文研究的一个主要问题。本文以初中数学多标签文本数据为研究对象,探讨数学题目的知识点自动标注模型。针对数学试题文本中促进分类的关键词与标签相关性信息进行研究并建模。先后提出了突出关键词的Seq2Seq模型KWH-Seq2Seq和标签相关性语义增强的KWH-Seq2Seq模型KHLCSE-Seq2Seq。最后基于改进的Seq2Seq模型设计并实现了数学试题智能标注系统。具体工作如下:(1)考虑到数学题目文本中深层语义信息和关键词信息,对知识点标注准确率有很大影响,本文选用深层金字塔卷积神经网络(DPCNN)作为Seq2Seq模型的编码器部分。并针对DPCNN缺乏捕捉关键词的能力,本文提出了一种新的可以突出关键词的DPCNN编码器结构KWH-DPCNN。新提出的模型利用深层卷积核提取的试题文本语义向量与初始词向量之间进行语义突出相关性计算,并对多个卷积核计算的权重进行归一化操作并将其赋予初始词向量,以解决数学试题文本中关键词突出的问题。并结合基于Attention机制的LSTM解码器网络模型,共同构建突出关键词的Seq2Seq模型KWH-Seq2Seq,在多标签数学试题数据集中与现有基线模型算法进行对比,相比与基线模型中表现最好的SGM,汉明损失降低了4.4%,Micro-F1提高了0.6%。(2)针对KWH-Seq2Seq模型解码器存在的标签生成误差积累与无法知晓下一时刻标签相关性关系,提出了一种新的基于监督主题模型LLDA与LSTM的双通道解码器结构。双通道解码器结构一方面有效的缓解了单一通道导致的标签生成误差积累问题。另一方面监督主题模型会生成全局数学试题文本标签相关性语义向量,从而补充解码器解码信息,以此解决模型无法知晓下一时刻标签相关性关系。并针对LLDA直接对数学试题文本语义建模不够准确的问题,提出了一种新的考虑知识点标签共现与语义相关性的监督主题模型FSLLDA,以此在切合数学试题文本语义的同时,加强标签之间的相关性信息引入。并结合第三章提出的突出关键词的编码器网络结构KWH-DPCNN,共同构建关键词突出与标签相关性语义增强的序列到序列模型KHLCSE-Seq2Seq。通过在初中数学多标签数据集上的多组对比实验结果表明,本文所提出的KHLCSE-Seq2Seq模型相比第三章提出的KWH-Seq2Seq,性能得到进一步的提升,汉明损失降低了3.6%,Micro-F1提高了3.3%。(3)在上述研究的基础之上,本文还基于flask与Py Torch框架设计并实现了一个数学试题智能标注系统。论文先进行了系统的需求分析,然后详尽说明系统的具体设计方法,最后通过Py Torch框架训练保存模型参数并通过flask提供的接口访问,实现了高效便捷的数学题目知识点自动标注服务。
其他文献
肠道作为人体内最大的免疫器官,其稳态平衡直接影响人体健康水平。在与食物及外界微生物大量接触过程中,肠道健康面临严重挑战。细胞内外各类刺激会激活肠道信号通路,通过调节肠道干细胞增殖和分化水平维持肠道稳态。果蝇肠道的形态、结构和功能与哺乳动物具有高度相似性,并且参与调节肠道内环境稳态的一系列信号通路在果蝇和哺乳动物之间高度保守。目前,果蝇肠道已成为探究肠道免疫、干细胞增殖和分化机制的理想模型。Rab蛋
学位
MicroRNA是广泛存在于真核生物中的重要的调节因子,在植物和动物中的研究发现其功能是多样的,并且在生物体内有着重要的调节功能,包括生长发育和逆境应答等众多方面。Aft(Anthocyanin fruit)型番茄LA1966是由原产智利的野生种番茄L.chilense与番茄栽培种L.esculentum杂交所得,其果实在未成熟阶段,可产生并积累花青素。本研究选用Aft型番茄为试材,对不同发育时期
学位
近些年来,随着互联网和计算机技术的迅速发展,人们对于智能化的人机交互需求越来越高。语音是人类社会交换信息的重要方式,也是人机交互的一个重要接口,在人类生活中起到了关键的作用。近年来,语音识别等技术作为语音交互的核心得到了广泛的关注。作为语音识别的前端处理工作,建立一个自动进行语音增强的系统就成了近年来的一个研究热点。主流的单通道语音增强模型采用长短时记忆网络进行时序建模,但它的时序建模能力不强,无
学位
REMORIN(REM)是植物特异性蛋白家族,定位于质膜,是脂筏的重要组成成分,在植物生长发育、激素信号转导以及非生物胁迫等方面发挥重要功能。盐碱胁迫是限制植物生长发育的重要非生物胁迫,因此解决土地盐碱化以及盐碱地资源如何有效利用至关重要。本研究以过表达BrREMORIN基因的转基因烟草为研究材料,对其生长发育和耐盐碱特性进行评价,通过RNA-seq分析,揭示REMORIN蛋白在植物响应盐碱胁迫中
学位
石油产业是我国经济的支柱产业。HSE(Healthy,Safety and Environment)健康、安全和环境管理体系,是在国际石油业中探索并逐渐发展起来的三位一体的管理体系。随着经济发展和社会进步,社会对安全生产的期待不断提高,从业人员对于自身职业健康与安全的意识不断增强,政府对于工作环境和工人的职业安全健康权益的关注也日益提升。外部和内部环境的变化,促使越来越多的企业开始重视健康、安全和
学位
基于计算机断层扫描的病变自动检测已成为一个备受关注的研究领域,研究人员希望利用计算机辅助诊断系统来辅助临床医学诊断。目前的检测算法主要针对特定的器官部位进行病灶检测,不具有通用性,限制了辅助诊断系统的应用和普及,同时影响医生在临床诊断中对病情作出全面的诊断。人体腹部各器官在空间位置上紧密连接,癌细胞无限增殖的特性导致其有可能向周围浸润及向远处转移,会在其他部位生长相同的癌细胞,腹部病变检测可以帮助
学位
三萜化合物是一类具有多种骨架结构的生物活性物质,已经发现的三萜骨架多达120多种,包括具有椅-船-椅(CBC)构象的羊毛甾烷、波罗蜜烷、葫芦烷等四环三萜,以及达玛烷、甘遂皖、大戟烷等椅-椅-椅(CCC)构象的四环三萜,以及羽扇豆烷、何伯烷、乌苏烷、齐墩果烷、蒲公英烷和木栓烷等CCC构象的五环三萜。2,3-氧化鲨烯环化酶(OSC)是产生三萜骨架的关键酶,已有将近150种不用产物的OSC酶被鉴定,主要
学位
植物自交不亲和性(Self-incompatibility,SI)是很多显花植物促进异交防止自交的一种机制。M位点蛋白激酶(M locus site pretion kinase,MLPK)是存在于柱头中的SI信号正向调节因子。羽衣甘蓝(Brassica oleracea var.acephala)是十字花科芸薹属植物,具有观赏价值和良好的耐寒性,是北方重要的园艺植物之一,芸薹属植物是植物自交不亲
学位
白桦(Betula platyphylla Suk.)是主要分布于北温带的落叶乔木,作为北方森林重要的先锋树种和建群种,具有重要的生态价值。白桦木材黄白色,纹理光滑,材性优良,可广泛作为建筑和工业用材,具有很高的经济价值。白桦树皮中的白桦酯醇、白桦酯酸等三萜类化学物质,可用于制造抗肿瘤和防HIV药品等,具有很高的药用价值,也可用作化妆品和香料的制造。全球气候变化和不合理土地的开发使得盐碱地面积仍在
学位
辣椒疫霉菌(Phytophthora capsici)是危害自然界蔬菜产量的一种毁灭性病菌,可危害多种蔬菜和作物,给全世界蔬菜种植产区带来了巨大压力,开发新型安全的生物防治方法迫在眉睫。白屈菜红碱于常见植物白屈菜中提取得到,属于生物碱中的苯并菲啶季胺碱,对于其在农学上抑制植物病害发生发展的方面已有研究,而目前还未应用于卵菌病害的防治方面。本论文以辣椒疫霉菌为研究对象,从分离鉴定、白屈菜红碱对其体外
学位