数学公式的自然语言拼读文本生成

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:oldehero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网推动了在线教育的快速发展,语音合成技术成为在线教育辅助教师教学的重要技术手段之一,就数学教学而言,为了合成数学公式的语音,首先需要将数学公式转换成自然语言拼读文本,即数学公式的自然语言拼读文本生成。目前针对这一问题的研究工作较少,为推动在线数学教育发展,本文针对如何将La Te X格式的数学公式转换为自然语言拼读文本这一问题开展了研究,并提出了使用文本生成技术来完成转换的有效解决方案。由于数学公式的自然语言拼读文本生成这一任务没有可以直接使用的数据集,本文首先与相关专家合作制定了一套教育场景下的数学公式拼读规范,并收集了约13万条中学的数学题目,从中选取并标注了38270条La Te X格式数学公式,完成了数学公式到中文拼读文本平行语料库的构建,然后进行了实验来探究何种方法适合解决这一任务。本文首先使用规则模板的方式来完成转换,但是由于存在公式符号读法多义、读法缺失以及符号与拼读文本顺序不一致等问题,效果并不理想。然后使用端到端的文本生成技术来完成拼读文本的生成,取得了不错的效果。本文研究的端到端的文本生成模型主要包括Transformer模型、Graph2Seq模型以及Seq2Seq模型。效果最好的是Seq2Seq模型,将BLEU-4的值从规则模板的43.63提高到了74.71。考虑到近年来自然语言处理领域常用预训练方法来完成知识的迁移学习,且当下并没有数学公式符号的预训练词向量,本文使用约3万条未标注的数学公式语料对Glove模型进行训练得到了数学公式符号预训练词向量,并在此基础上继续训练Seq2Seq模型,取得了BLEU-4值0.36的提高。同时,通过对数据集的统计发现,含有一种或多种明确读法的数学公式符号出现的频率超过了60%,所以本文构建了数学公式符号到其对应读法的映射字典,包含一对一和一对多两种映射关系。并将此映射字典作为外部知识,融入Seq2Seq模型中来帮助其生成质量更高的拼读文本。实验结果表明,在领域预训练词向量基础上加入外部映射知识后模型的BLEU-4值提高了1.7。
其他文献
电力网络作为重要的能源输送和配置平台,其安全状况与电力系统稳定运行密切相关。近年来,工程车辆及火灾造成电力基础设施损坏的事故层出不穷。这些事故难以预控,一旦发生很难在短时间内得到解决,造成无法弥补的损失。随着智能电网概念兴起和计算机视觉的快速发展,基于视觉的方法能够自动检测入侵电力网络的外物,并根据实际情况进行安全预警识别。这种方式使巡检效率大幅提高,减少人为失误带来的损失。受电网工作环境、采集时
学位
研究背景系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种严重的自身免疫性疾病,常累及多器官系统且其临床表现多样,好发于育龄妇女。据报道,70~80%的SLE患者会出现皮肤症状,25%的SLE患者首发皮肤症状。然而,鉴别SLE患者的皮肤症状存在困难,因而容易延误SLE的诊断和治疗。皮肤作为人体最大的器官,不仅存在共生有益的微生物,也存在潜在致病的微生物。有研究
学位
目的:1.探讨B7-H3和B7-H4基因单核苷酸多态性与强直性脊柱炎易感性之间的关联性;2.检测AS患者中B7-H3基因启动子区域甲基化水平及其m RNA表达水平,在表观遗传学水平上探讨B7-H3基因在AS发病机制中的作用。方法:1.本次研究分为两个部分,第一部分,本研究在安徽医科大学第一附属医院风湿免疫科收集了649例确诊AS患者,同时在安徽医科大学第一附属医院体检中心和合肥市中心血站收取性别和
学位
目的探讨线粒体DNA拷贝数(Mitochondrial DNA Copy Number,mt DNAcn)与系统性红斑狼疮(Systemic Lupus Erythematosus,SLE)发病、糖皮质激素(Glucocorticoids,GC)疗效及预后的关联,及其与环境因素和肿瘤坏死因子受体相关蛋白1(Tumor Necrosis Factor Receptor-associated Prot
学位
X光胸片是应对肺部区域疾病最常用的影像学检查方式之一,在其基础之上进行准确的肺部区域分割有着十分重要的意义。其分割结果既可以提供肺部区域的空间信息,辅助医生对于肺部疾病的诊断,也可以去除X光胸片中非肺部区域,避免其对于图像处理和诊断分析的影响。本文主要致力于基于X胸片的肺部区域分割方法的研究,针对已有工作存在的问题和不足,提出了三种X胸片的肺部区域分割方法。具体内容如下:针对分割结果不准确和不符合
学位
背景:精神分裂症患者心脑血管疾病的发病率显著高于健康人群,这是导致该病高致残率、高死亡率最主要的原因之一。血脂异常会增加多种心脑血管疾病发生和发展的风险,细颗粒物(particulate matter with an aerodynamic diameter≤2.5μm,PM2.5)与血脂水平变化之间的关联已有报道,而专病人群对于环境危险因素可能更加易感。本研究基于社区的慢性稳定期精神分裂症患者开
学位
脑肿瘤是生长在大脑里的不正常细胞群,对人们的生命健康造成严重威胁。将肿瘤区域正确划分出来是脑肿瘤治疗和诊断中不可缺少的一步。临床通过核磁共振成像(Magnetic Resonance Imaging,MRI)获取包含不同信息的多模态MRI脑部图像用于颅内结构的观测。现有的方法主要提取MRI图像的多模态混合信息或单一模态独立信息,缺乏对混合信息和独立信息的结合。此外脑肿瘤分割任务中的目标尺寸不一致问
学位
恶意代码的检测一直是网络空间安全中最重要的研究课题之一,近年来,随着机器学习及深度学习技术的发展,深度神经网络模型已经逐渐应用于恶意代码检测,并在应用中取得了不错的效果。然而,最近的研究表明,深度学习模型自身存在不安全因素,容易遭受对抗样本攻击。在不改变恶意代码原有功能的前提下,攻击者通过对恶意代码做少量修改,可以误导恶意代码检测器做出错误的决策,造成恶意代码的漏报。为此,本文从攻防两个角度,研究
学位
事件因果推理是人工智能实现从感知到认知的核心问题之一,具有重要的理论研究价值和广泛的应用场景。现有的文本中事件因果关系识别方法往往注重于挖掘输入文本中的序列特征,但忽略了事件间的结构联系,难以建模远距离事件间的因果联系;同时,现有的事件因果识别方法主要聚焦于事件实例层级,存在预测结果不一致的问题,或需要额外的约束解决冲突,导致模型的复杂度较高。针对上述问题,本文结合了依存句法树信息和注意力机制,增
学位
目的本研究在探讨儿童虐待与中小学生校园欺凌受害的关系的基础上,采用结构方程模型(Structural Equation Modeling,SEM),探讨家庭功能、抗逆力和焦虑在其中的独立中介作用及链式中介作用,并进一步探讨特定类型的儿童虐待对校园欺凌受害的影响,以及儿童虐待对特定类型的校园欺凌的影响,并检验中介效应的性别差异。方法采用横断面调查方法,于2020年10月至12月调查了中国安徽省部分中
学位