基于模板提取的手写汉字评价自动生成方法

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:zzyynn99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写汉字评价是根据手写汉字与标准汉字特征之间的相关性,实现汉字的评估以及提出如何提高书写水平建议,其在中小学阶段发挥着重要作用,能有效辅导学生理解手写汉字的缺陷进而提高手写汉字的书写质量。而数据到文本生成任务恰好可以利用不同手写汉字特征之间的相关性作为输入,得到手写汉字评价。本文通过总结数据到文本生成方法的现状,分析生成文本与模板的关系,结合基于深度学习的文本生成相关技术,进一步思考如何将深度学习有效地应用到基于模板提取的手写汉字评价自动生成任务中。(1)基于隐半马尔科夫模型(Hidden semi-Markov Models,HSMM)与复制机制为手写汉字评价提取模板。根据手写汉字特征生成流畅且可控文本的关键在于如何获取质量较好的模板。人工构建的模板根据特定领域可能出现的情况构建相对应的模板,进而可利用手写汉字特征挑选合适模板生成评价,而基于神经网络的文本生成,无法直接操纵内容选择与生成,存在输出文本中频繁出现数据记录重复等问题。为了克服此弊端,本文使用隐半马尔科夫模型提取手写汉字评价模板,可提高生成文本的可控性,并且利用复制机制解决分段的频率与其在模板中的重要性问题,有效提升了生成评价文本的质量。(2)在隐半马尔科夫模型与复制机制的基础上融入基于注意力机制的双向长短期记忆网络(Bidirectional Long Short Term Memory,Bi LSTM),可有效提高生成模板的准确性。由于过长的评价文本信息经过长短期记忆网络(Long Short-Term Memory,LSTM)存在信息获取不全的问题,而基于的注意力机制的双向长短期记忆网络能够克服以上弊端,并且在切分评价文本时对手写汉字评价文本中重要信息赋予较大的权重值,提高了生成模板的准确性,进而提高生成文本的质量。(3)针对不同数量的手写汉字特征偏差值生成评价文本,从多个角度分析实验结果。文本生成过程中,当前词语的生成依赖于之前已经生成的词语即自回归模型(auto-regressive,AR),但此条件限制了文本生成的速度,由此产生了非自回归模型(Non-auto-regressive,NAR)。根据以上两种不同的生成方法,验证在不同数量的手写汉字特征偏差值下,不同模板抽取方法对评价文本生成的影响,证实本文方法的优势。进一步地,使用文本生成常用评价指标BLEU-4、CIDER、METER、ROUGE进行评估。实验表明,本文方法在10种手写汉字特征偏差数据集上,采用BLEU-4评价指标,非自回归与自回归生成的文本分别达到了0.58、0.59,在4种手写汉字特征偏差数据集上分别达到了0.56、0.58。
其他文献
植物名的研究是词汇研究中不可或缺的重要组成部分。植物名中蕴含着独特的民族思维和传统文化的印记。本文在前人相关研究成果的基础上,主要运用了统计法、描写法、认知语言学和文化语言学的方法,对《蒙古语辞典》中收集的1658个植物名进行了归类,并分析了其结构特征和命名特征,阐明了部分植物名的来源,阐述了植物名所反映的认知特征和传统文化。本文由绪论、第一章、第二章、第三章、结论、参考文献、附录等几部分组成。绪
学位
吐鲁番位于今新疆维吾尔自治区的中部,是天山东部的一个东西横置的形如橄榄状的山间盆地,四面环山,是古丝绸之路上东西方文化交流的重镇。吐鲁番出土文献种类较多、语种多样、内容丰富。吐鲁番出土回鹘式蒙古文文献包括手写文献和木刻文献两种,本文以木刻文献为研究对象。吐鲁番出土回鹘式蒙古文木刻文献是蒙古族宗教文献资料的重要组成部分,它具有历史学、文献学、宗教学、语言文字学等多方面的研究价值。通过对吐鲁番出土回鹘
学位
《丙寅》杂志是现代文化事业的先驱卜和克什克(1902-1943年)创办的民间综合性刊物。本论文将《丙寅》杂志的文学活动从传承问题、创新问题、建构问题进行系统化研究,分析概括该杂志对蒙古族现代文学起到的承上启下的作用。主要结合运用了统计学方法、社会历史批评方法、传播学、文献学等研究方法。本论文由绪论、正文(1-3章)、结论、参考文献等四个部分组成。绪论部分,主要介绍了选题缘由、研究综述、选题目的及价
学位
在中古蒙古语文献中,除了回鹘式蒙古文文献、八思巴字蒙古语文献、汉字标注蒙古语文献以外,还有阿拉伯字标注蒙古语文献。在阿拉伯字标注蒙古语文献中,《穆卡迪玛特·阿勒-阿达布蒙古语词典》是阿拉伯语-波斯语-突厥语-蒙古语四种语言的词典。这部词典最初是阿拉伯语-波斯语词典,是十二世纪穆罕默德·札马赫沙利创编的,之后在此基础上增加了突厥语,至于第四种蒙古语具体是什么人增加的至今未有明确记载。《穆卡迪玛特·阿
学位
肺结节是早期诊断肺癌的判断标准,对肺结节进行准确分割是制定治疗方案的关键步骤,可以大大提高肺癌患者的治愈率。然而,现有的肺结节分割网络在捕获特征的过程中特征丢失严重,局部上下文信息获取不足,造成小结节区域分割不准确、边缘分割不精确等问题。针对上述问题,本文基于深度学习技术,针对CT图像中的肺结节分割任务,提出两种肺结节分割网络模型,以提高肺结节的分割准确性,主要内容如下:(1)首先,设计了一种结合
学位
从中古后期至宗教改革时期,罗马大公教会的教士群体在权力、财富、道德等方面招致了社会各阶层的不满与批评。欧美史学界将这一历史现象称为反教士主义。反教士主义是一个基于宗教改革史研究所需而构建出来的概念。反教士主义批评在中古后期经常出现,其批评者包括俗人与部分教士,但并非所有的反教士主义批评都会导致教会的分裂。因此,反教士主义并不会直接推动宗教改革的产生,但反映了中古后期的教会在制度上存在脆弱性,包括长
期刊
蒙古语熟语是在蒙古族漫长的生活经验中提炼成型的,它蕴含着蒙古族独特的文化思维、习俗以及生活智慧,从而成为了世代相传的非物质文化的一部分。含十二生肖名称的蒙古语熟语在熟语研究及词汇研究领域占有重要地位。本文在前人对十二生肖和熟语研究的基础上,以《蒙古语熟语大辞典》中搜集到的2178条含十二生肖名称的熟语作为研究对象,用统计法、描写法、认知语言学方法和文化语言学方法对其数量、分类、结构特征、修辞特征及
学位
人体动作识别是计算机视觉领域重要的研究课题之一。根据数据处理类型,人体动作识别可以划分为基于RGB视频数据和基于骨骼数据两类方法。相较于RGB视频数据方法,基于人体骨骼数据的方法能够规避视频中背景噪声的干扰;同时,Open Pose、Deep Cut等人体骨骼估计算法的日益成熟,使骨骼数据的获取变得更加容易;因此基于人体骨骼数据的方法具有一定的优势,随着图卷积网络的发展,此类方法也取得了质的飞跃。
学位
机器阅读理解是自然语言处理领域的热门研究方向,旨在根据文章和问题预测相关答案,其研究内容更加贴近实际应用,预测的准确率更能够体现模型性能。预训练语言模型利用已有的大量数据,学习通用的语言表示,能够提供一个更好的初始化模型,加速目标任务的收敛;同时,还可以避免在小样本数据集上出现过拟合现象。本文主要面向机器阅读理解任务进行深入研究,具体工作如下:(1)针对现有抽取式机器阅读理解模型无法深层次捕获全局
学位
音乐是意识与情感的产物,与人类生活息息相关,随着科技水平的发展,大数据下的音乐信息检索问题受到了广泛关注。情感是音乐包含的主要语义信息之一,基于情感进行分类能够多角度深层次地探索音乐类别,提高音乐检索的效率,近年来逐渐成为音乐信息检索的研究热点。音乐情感有着主观性强、风格丰富的特点,蒙古族音乐作为风格鲜明的民族音乐之一,因蕴含的文化艺术价值、历史价值及商业价值,逐渐被广大研究者所关注,如何更好地传
学位