【摘 要】
:
汉字到盲文自动转换是改善我国1700万视障人群生活学习的重要技术。我国先后制定了现行盲文、双拼盲文、国家通用盲文三种盲文标准。由于我国汉盲转换软件欠缺、技术落后,导致非出版及电子盲文资源缺乏,无法满足视障者需求,盲文出版、盲人教育事业也受到限制。现有汉盲转换方法均采用多步转换方法:先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该方法需要同时建立盲文分词连写语料
论文部分内容阅读
汉字到盲文自动转换是改善我国1700万视障人群生活学习的重要技术。我国先后制定了现行盲文、双拼盲文、国家通用盲文三种盲文标准。由于我国汉盲转换软件欠缺、技术落后,导致非出版及电子盲文资源缺乏,无法满足视障者需求,盲文出版、盲人教育事业也受到限制。现有汉盲转换方法均采用多步转换方法:先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该方法需要同时建立盲文分词连写语料库和汉语拼音语料库,建设难度较大;转换过程至少包括分词、标调、合成等阶段,算法复杂,翻译效率和准确率也会受影响。本文完成了基于神经机器翻译(NMT)模型的端到端汉盲转换方法研究。该方法可将汉字一步直接转换为盲文,工作量较少,工程复杂度较低;只需建设汉字-盲文句子级对照语料库,无需实现词语级精确对照,语料库建设难度较小。本文实现了RNMT、Transformer、ConvS2S三种端到端汉盲转换模型。实验结果表明,RNMT模型在现行盲文、双拼盲文、国家通用盲文的每项指标下均有最好的性能,BLEU值分别为84.63%、84.82%、83.53%,高频多音字标调准确率分别超过98.27%、98.41%、98.44%,汉盲转换准确率分别为91.00%、90.48%、89.76%。RNMT模型在现行盲文、国家通用盲文的整体标调准确率分别为99.79%、99.80%。本文同时研究了语料大小和模型性能的关系。实验结果表明,训练数据量的增加提高了三种模型的性能。Transformer模型在现行盲文、双拼盲文、国家通用盲文测试集的准确率均提高最大,分别提升0.51%、0.44%、0.26%。为支持模型训练和方法研究,本文基于《人民日报》六个月约1200万字中文语料,通过系统转换、专家校改,最终构建了国家通用盲文、现行盲文、双拼盲文三个汉盲对照语料库。本文利用Java Web和Deeplearning4j技术,将成果转化为工程项目,实现了端到端汉盲转换系统,并作为中国盲文数字平台的重要功能和组成部分,已有用户2万多人。该系统具有可访问性程度高、前后端分离、模块化特点。本文成果有效促进汉盲转换技术发展,有助解决盲人阅读资料匮乏问题。
其他文献
双通信模式可穿戴天线由于可以实现体表通信和体外通信间信息的无缝传输,在近年来引起了研究人员的关注。本文根据工作机制将现有的双模式可穿戴天线分为三类,并针对每一类研究设计了一款天线。所设计的三款天线可以方便地集成在衣物表面或直接穿戴,在无线体域网中具有较好的应用前景,具体的工作内容为:(1)设计了一款双频段双模式可穿戴天线。该天线可应用于工业、科学和医疗频段中2.4-2.4835 GHz和5.725
机器类型通信(Machine Type Communication,MTC)使所有机器具备连网和通信能力,是实现物联网(Internet of Things,Io T)的关键技术,有着广泛的应用前景和应用价值。随着机器类型通信在网络中的应用越来越广泛,安全问题逐渐成为人们关注的焦点。传统的一对一安全方案可以保证数据的保密性和完整性,保护用户的隐私数据,但当海量设备进行业务数据请求时会导致核心网拥塞
数字化和大数据的快速应用使得各种应用场景对存储系统整体提出了更高的要求。传统的以写为主的负载场景正在向着读密集型方向逐步偏移,尤其体现在电子商务,各大短视频应用等领域。本文从FUSE以及LevelDB这两种当下使用广泛的存储引擎存在的对于读请求不太友好的问题出发,在LevelDB和原生libfuse上层API中设计实现了一种buffer cache系统,以降低磁盘I/O的比率,从而整体提高系统响应
当今时代,5G、物联网、云计算等技术的高速发展,带来了数据信息量的爆炸式增长,这对存储系统提出了更高的要求。存储系统的存取效率、数据的可靠性将受到严峻挑战。RAID存储系统具有良好的存取性能、优秀的可扩展性再加上相对低廉的成本,因而被广泛应用在各大企业的存储服务器中。本文基于RAID6存储系统,对RAID6编码的布局与重构、RAID6在线扩容方案的优化进行研究,并设计出两种方案。内容如下:本文提出
随着互联网的发展,近几年网络规模和网络流量出现井喷式的增长。数据中心面临的流量压力与日俱增,如何对网络流量进行合理地分配,缓解数据中心的负荷压力,保障网络的链路畅通就成为了需要解决的问题。传统的网络架构由于采取分布式的布局,难以进行全局性的优化;因此本文研究使用具有集中控制特性的软件定义网络(Software Defined Network,SDN)来解决数据中心的链路负载均衡问题。SDN的集中控
随着国内外汉语学习热潮的持续升温,围绕汉语作文自动评分的研究吸引了越来越多研究者的兴趣。作文自动评分的研究目标是利用计算机技术自动给作文进行评分工作,是自然语言处理技术在教育领域的重要应用。该技术不仅能够降低人工评分存在的主观因素的影响,而且能够很大程度上减轻阅卷人的工作负担。目前作文自动评分的研究和系统研发主要是围绕英语展开的,对汉语作文自动评分的理论和实践研究较少且没有得到较好的应用。本文主要
推荐模型作为解决信息过载问题的有效途径,近年来已在各领域得到广泛应用。传统推荐模型由于浅层的结构设计,导致其无法提取到用户和项目的深层次特征。同时传统推荐模型也无法对序列化的用户行为数据进行合理建模,难以学习到序列数据的前后依赖关系。现有的基于深度学习的推荐模型,多侧重于用户历史行为学习,或是侧重于项目内在关系的分析,难以兼顾深层次用户特征与项目特征的有效提取。鉴于此,本文探索基于深度学习推荐模型
句子是自然语言运用的基本单位,也是自然语言处理的研究对象。句子相似度计算是文本相似度计算的基础,在文本理解中具有重要的意义。藏文句子相似度计算处于起步阶段,考虑的因素还不够全面。藏文句子相似度研究时需要一个衡量其性能的评测集,并在此基础上研究藏文句子相似度计算方法。在藏文句子相似度评测集方面,目前还没有合适的藏文相似度评测集,阻碍了藏文句子相似度计算的进一步发展。在藏文句子相似度计算方面,虽然有一
在大量图像数据集的支撑下,基于深度学习的图像修复模型能够更好地捕捉图像中隐藏的高级特征和深层结构,达到更贴近图像特点和人眼视觉的修复效果。结合基于深度学习的图像修复技术对唐卡图像不规则破损区域进行模拟修复,既能够保证修复的效率和质量,还可以避免给唐卡带来二次伤害,对实现唐卡的数字化保护有着重要的社会文化意义和学术实践价值。本文以唐卡的数字化保护为出发点,实现了深度学习在唐卡图像修复中的研究与应用,
目前,图像目标检测已经变成图像处理以及工业领域重点研究的方向之一,其主要任务是从图像中定位目标并对目标种类进行判断。随着图像领域人工智能化的发展,深度学习中神经网络方法逐渐代替了传统的图像处理方法,并在图像目标检测领域取得了巨大的成果。图像目标检测通常会受到光线、目标大小、目标清晰程度的影响,从而导致目标检测的鲁棒性变差。传统目标检测使用窗口滑动的方法去解决图像目标检测的问题,这种方法会消耗大量的