基于预训练模型的汉盲转换方法研究

被引量 : 0次 | 上传用户:q372245556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字与盲文的自动转换是提升我国1731万视障人群生活水平、完善教育技术、实现国家信息无障碍化的关键。然而,由于我国汉盲翻译软件不足和技术的滞后,这项工作无法满足视障者日常学习和工作需求,严重阻碍了我国盲文出版和盲人教育事业的发展。当前,汉语盲文转换技术有多个选择,其中主要分为多步式汉盲转换方法和单步式汉盲转换方法。多步式汉盲转换方法的步骤为“汉字-分词-拼音-盲文”:首先将需要转换的汉语文本准备好,建立盲文分词连写语料库,结合盲文分词连写规则构建并训练分词模型,将汉语文本根据分词模型进行分词,得到分词结果;建立汉语拼音语料库,构建并训练拼音模型,根据该模型进行词语拼音信息标注;最后将带有拼音信息的词语转换为盲文。其中需要多语料库支持,建设成本高、难度大;并且多模型建立步骤繁琐,转换效率和准确率受影响。单步式汉盲转换方法结合神经机器翻译模型的结构,可以单步式地把汉语转换成盲文,通过对现有模型的训练,该研究旨在探索汉盲转换算法,但尚未深入探讨其内在机制,因此,有必要进一步加以研究,以期提升转换的准确性。本文对基于自注意力机制的Transformer汉盲转换方法进行改进,对其增加预训练模型,其中使用BERT模型,将海量纯文本数据在BERT模型上进行训练,再将输入序列转换成BERT模型的表示,然后注入下游模型所有层,在每一层的注意力模块中自适应地与BERT的表示交互,最终输出BERT模型表示和下游模型注意力模块的融合表示。本文基于上述想法提出三种改进模型,分别为Bes Transformer、Beds Transformer和Best Transformer模型,这些模型都将输入序列转换成BERT预训练模型处理过的表征,然后通过注意力模块与每个下游模型的编码层和解码层进行交互,最终得到二者的融合表征。本文通过实验对汉盲转换进行了全方面评估分析。实验结果表明,与基于自注意力机制的Transformer汉盲转换方法研究相比,Bes Transformer、Beds Transformer和Best Transformer的模型性能均有所提高。当采用默认权重ω1=ω2=ω3=ω4=0.25的情况下,对比BLEU值时发现,Bes Transformer模型在三种盲文的BLEU值分别为91.35%、91%、86.85%,较Transformer模型分别提高12.17%、10.75%、1.9%;Beds Transformer模型在三种盲文的BLEU值分别为94.16%、93.02%、89.07%,较Transformer模型分别提高15.13%、12.77%、4.44%;Best Transformer模型在三种盲文的BLEU值分别为95.15%、93.79%、89.67%,较Transformer模型分别提高16.07%、13.54%、5.04%。三种改进模型较Transformer模型在国家通用盲文测试集准确率均有所提高,分别提高了0.86%、0.93%、1.02%。因此可以得出,本文提出的三种模型性能与Transformer模型相比均有所提高,证明了改进模型的可行性和有效性。在计算METEOR值时,Best Transformer模型在三种盲文下均实现了最高的METEOR值,分别是99.63%,99.65%,99.10%。通过BLEU值和METEORE值的综合评估,表明Best Transformer模型在特征提取和表征融合做的更深刻,更好的完成汉盲转换任务,而Beds Transformer模型次之,Bes Transformer模型最差。随着训练数据的增多,三种模型的性能均得到了显著改善。经过对转换结果的分析,本文总结出存在的五种问题,分别为分词差异、分词错误、多音字错误、符号错误和语料库错误。本文通过将预训练引入到汉盲转换任务,对纯文本数据进行通用语义特征提取,将源语言和目标语言与模型注意力进行融合,实现了汉盲转换方法的优化与创新。目前,我国采用三种盲文标准:国家通用盲文、双拼盲文和现行盲文。为了研究汉盲转换方法,论文收集了《人民日报》1998年六个月的数据,并将数据经过中国盲文数字平台转换和专家校对后,最终得到约1200万字的三种盲文句子级汉盲对照语料。
其他文献
以自然资源价值论为切入口对“绿水青山就是金山银山”进行学理阐释,要避免落入西方新古典环境经济学关于自然资源稀缺性假设的话语叙事,因为其隐藏着以保护自然资源为借口谋取经济利益最大化的内在本质。我们应该从人与自然是生命共同体的哲学诠释范式中阐释“绿水青山”何以是“金山银山”,做到在敬畏大自然中发现“绿水青山”的价值所在。这种看似超越性的哲学诠释又绝非忽视经济效益释放的纯粹抽象表达,其终究是要回归人类社
期刊
<正>习近平总书记在2005年到浙江安吉考察时提出的“绿水青山就是金山银山”是两山论的萌发。然而,两山论实际上包含了三句话:“既要绿水青山,也要金山银山。宁要绿水青山,不要金山银山。绿水青山就是金山银山”。这三句话才是对两山论最完整的表达。在党的十九大,党中央将两山论写入了中国共产党章程中,这是国家和党领导全国人民建设美丽家园重要的指南。
期刊
近年来,随着城市化进程的加速,土地利用率的快速提高,大型电力、水利工程和各类土地开发项目的建设,给城市经济效益带来了快速增长,但城市与乡村自然形成的边界变得逐渐模糊。在总结以往经济发展的经验中不难看出,经济建设和维系生态环境有着较大的矛盾,如何在发展经济的同时又能兼顾对环境造成的干扰一直是困扰国民经济发展的难题。“绿水青山就是金山银山。宁要绿水青山,不要金山银山。”彰显了中国作为人口众多的大国在国
期刊
目的通过研究火器伤所致四肢损伤患者的特点及预后,从而为战时火器伤救治提供有效的方法。方法回顾性分析自2005-01—2016-12诊治的6例四肢火器伤患者,经伤道由浅入深逐层进行清创,1例术中探查发现坐骨神经断裂,清创后直接吻合。3例合并骨折患者用外固定架临时固定骨折,二期缝合伤口或游离皮片植皮,伤口愈合后3个月左右行骨折内固定联合髂骨植骨术。结果术后随访2~8年。1例合并股骨干骨折患者术后1个月
期刊
“绿水青山就是金山银山”理念是习近平生态文明思想的重要组成部分,它融汇了马克思主义和中国古代哲学的思想理论。通过深入研究“绿水青山就是金山银山”理念的中国古代哲学意蕴,可以发现:中国古代哲学中的天人合一思想是“绿水青山就是金山银山”理念的哲学基础,中庸思想是其哲学思想内核,而道法自然思想则是其哲学实践方法论。这充分说明,“绿水青山就是金山银山”理念扎根于中华优秀传统文化之中,对于实践具有较大的指导
期刊
随着现代信息技术广泛应用于果园的生产管理,果园产生的各类数据飞速增长。果园大数据已成为推动果业转型升级,提高生产决策的重要手段。针对苹果园信息反馈慢、信息化程度低、数据量和运算量大、数据存储效率低等问题,本文结合苹果园多源异构数据的实际需求,采用Hadoop分布式框架,构建了基于卷积神经网络的苹果园图像分类模型,设计并实现了苹果园大数据平台,主要研究工作如下:(1)苹果园大数据平台需求分析。根据农
学位
在数字经济快速发展的背景下,数据在生产力提升中的倍增效应越来越明显,已成为推动我国经济发展的关键生产要素。制造业企业作为国家支柱产业,拥有着雄厚的基础资源和成熟完善的制度政策,为我国经济高质量发展提供了力量源泉。然而,创新动力不足导致制造业在转型升级的道路上举步维艰,制约着我国核心竞争力和国际地位的提高。在“中国制造2025”和“数字赋能发展,创新引领未来”战略背景下,制造企业如何借助大数据技术促
学位
当前,我国的金融科技发展势头迅猛,对社会各领域都产生了深刻的变革,国家对金融科技愈发重视。中国人民银行响应“十三五”科技创新规划,印发《中国金融业信息技术“十三五”发展规划》,强调金融业信息技术的发展方向与目标。银行作为经济领域的中流砥柱,更是受到深刻的影响。在此背景下,商业银行与金融科技的融合成了必然之路,商业银行利用先进的科技手段,加强了自身的风险管理能力,通过数字化转型,提高经营效率,满足了
学位
近年来,随着互联网的普及和传统行业的数字化转型,衣物洗护行业也呈现出信息化、数字化、智能化的趋势。X公司创建了一个集智能柜体收发、物流配送、中央洗护工厂于一体的智能社区衣物洗护平台,其创新的运营模式赢得了众多客户的好评。然而,由于存在目标客户识别不准、客户转化效率不高等问题,如何优化其精准营销策略成为X公司迫在眉睫的挑战。本研究将从用户画像系统构建和大数据精准匹配的思路来破解这一难题,首先,采用统
学位
大数据、云计算、区块链、人工智能等金融科技的快速发展与应用,极大地促进了商业银行业务智能化转型发展进程,从电子汇兑到手机银行,再到开放银行,商业银行网点经营模式正在从传统的渠道化逐渐向智能化转型发展,尤其是互联网金融的快速崛起,倒逼商业银行网点经营向智能化转型,也只有智能化转型发展,才能够完善与创新网点金融服务功能,满足不同客户群体的金融服务需求,最重要的是商业银行网点智能化转型能够提升商业银行市
学位