基于深度学习的汉盲自动转换技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：minlu123

【摘要】

：

汉语-盲文转换在盲文出版、盲人教育等领域有重要应用，但当前主要基于人工完成，其过程效率低、成本高，导致盲文读物匮乏，盲人获取信息困难。已有的汉盲自动转换系统在盲文自动分

【作者】

：

蔡佳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

文字转换汉语语料库盲文语料库深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

汉语-盲文转换在盲文出版、盲人教育等领域有重要应用，但当前主要基于人工完成，其过程效率低、成本高，导致盲文读物匮乏，盲人获取信息困难。已有的汉盲自动转换系统在盲文自动分词和标调方面性能不高，难以满足实用需求。当前已有研究大多基于“先将汉语分词再利用规则合并”和“匹配语料中出现的盲文词”两种策略，但盲文的分词连写涉及复杂的语法和语义规则，且词语无法穷举，导致计算机处理困难，性能受到很大限制。此外，基于机器学习的汉盲转换方法可大幅提高性能，但当前研究基于盲文语料库，在分词过程中损失了汉字的部分信息，会因为同音词混淆现象影响性能，并且已有研究采用传统神经网络，该模型在许多领域已逐步被深度学习方法取代。　　针对上述问题，本文提出了基于深度学习和汉盲双语语料库的汉语-盲文转换方法，首次将深度学习技术引入该领域，并按照两种思路展开研究，提出了一种分步式的汉盲转换方法和一种端到端的直接转换方法。同时，为了支持上述两种方法中深度学习网络的训练，构建了一个汉盲对照双语语料库。　　本文取得的成果如下:　　(1)构建了汉语和盲文对照的双语语料库　　目前尚无在规模和内容上均适合深度学习网络训练的汉盲双语语料库，并且现有语料库主要通过人工构建，效率低、成本高。针对上述问题，本文采用了基于字符匹配的对齐算法，能够高效地从不精确对照的汉语和盲文文档中自动抽取文本形成语料库，并实现了篇、段、句、词的多级对照。本文采用126本盲文书籍构建了一个汉盲双语语料库，其中无标点语料规模为27万句，234万字，含标点语料规模为6.7万句，197万字。　　(2)提出了基于深度学习分词和统计学习标调的汉盲转换方法　　针对已有基于机器学习的汉盲转换方法使用纯盲文语料库和传统神经网络模型，性能难以进一步提升的问题。本文基于已构建的汉盲双语对照语料库，提出了基于深度学习分词和统计学习标调的汉盲转换方法，设计了基于双向长短时记忆网络、双向长短时记忆网络与条件随机场结合的分词算法，将汉语文本按照盲文规则分词，同时利用统计学习模型判断哪些字需要标出声调。该方法首次将深度学习技术引入汉盲转换领域，并且通过采用双语语料避免了对盲文进行分词和标调时遇到的发音混淆问题。实验结果表明，相对于基于传统机器学习和纯盲文语料库的方法，本文设计的方法在准确率上提升了6个百分点。　　(3)提出了基于深度学习的汉盲直接转换方法　　当前研究大多采用分词和标调分步的方法，但在标调时采用的模型相对简单，没有充分利用上下文信息。针对该问题，本文提出了一种基于深度学习的汉盲直接转换方法，充分利用可用的上下文信息，使用一个深度神经网络同时实现分词、标调和多音字读音选择三种功能。该方法将每个字的分词、标调、多音字读音等信息组合后作为字的标签输入深度神经网络，使其自动学习盲文的分词和标调等信息。实验结果表明，该方法准确率可达90.47％，高于基于深度学习分词和统计学习标调的分步方法。

其他文献

实时主动数据仓库若干问题研究

随着信息技术的发展，数据仓库技术得到了前所未有的广泛应用，产生了巨大的经济效益。但是，随着市场经济步伐的加快和市场竞争的日趋激烈，传统的数据仓库技术已经不能很好地满足当

学位

数据仓库实视图视图选择多维数据分析规则数据存储负载均衡查询竞争联机分析处理

资源空间模型在机械故障智能诊断中的应用与研究

随着智能技术的迅速发展,人们试图应用知识工程、专家系统等技术,以计算机模拟人类专家对复杂系统进行故障诊断的方法,综合多个专家的最佳知识和经验,实现机械故障的快速分析

学位

资源空间模型机械故障诊断语义存储管理模糊查询

基于汉语框架网的问句语义角色标注研究

语义分析是自然语言处理领域的重要问题,也是当前研究的热点和难点问题。由于深层语义分析在目前的技术背景下还难以实现,特别是自动句法分析的瓶颈很难逾越,于是很多学者开

学位

汉语框架网条件随机场语义角色标注问句分析

IPv6协议一致性测试中的错误探测与诊断技术研究

IPv6是在IPv4运行基础上发展起来的更为完善的Internet协议，是下一代互联网络的基础通信协议。IPv6协议栈涉及大量的协议规范，且相当一部分仍在讨论中。由于Internet应用在很大

学位

IPv6协议一致性测试错误探测扩展有限状态自动机错误诊断

无线射频识别(RFID)编码解析网络服务技术研究

目前，我国还没有提出完整的RFID（Radio Frequency Identification，无线射频识别）应用架构，相关的RFID支撑技术、产业发展的基础设施、测试认证、政策环境都还没有建立起来，关于编码

学位

无线射频识别无线射频识别网络服务网络服务编码解析编码解析电子标签电子标签网络服务技术网络服务技术

基于工业以太网的高可用性网络冗余技术研究与开发

随着计算机网络、通信和控制技术的发展，以太网技术在工业控制领域中的应用倍受关注。但控制系统对高可用性和稳定性的要求限制了工业以太网的发展。同时面对国内工业生产的安

学位

工业以太网网络冗余协议总线控制系统故障探测故障恢复

一种Web服务组合的自动化模型检测方法

如今Web服务广泛分布于互联网中,它们通过彼此之间的交互实现对问题的协作求解。然而,在交互过程中,一些非预期、“不正常”的信息交互时有发生,严重影响了系统的质量及健壮

学位

模型检测Web服务组合特征交互BPEL

基于射频识别(RFID)技术的室内定位方法研究

射频识别（Radio Frequency Identification，RFID）是一种利用射频信号自动识别目标对象并获取相关信息的技术。由于传统的定位技术不能满足室内定位环境和精度的要求，而RFID技术所

学位

室内定位室内定位射频识别射频识别虚拟参考标签虚拟参考标签信号强度指示信号强度指示近似图近似图

应用于历史网页搜索系统的检索算法研究与实现

近年来，人们意识到保存Web的重要性，国内外有了保存历史网页的系统，其中北京大学网络实验室研发的Web InfoMall系统已经存储了从2002年至今的中国互联网上超过30亿的网页，在这个

学位

历史网页检索算法衰减因子搜索系统

龙芯嵌入式SoC AHB-PCI桥接器的设计及优化

嵌入式SoC有效地降低了系统的功耗、体积和成本，提高了产品的性能价格比和竞争力，是当今嵌入式系统设计技术发展的主流。PCI总线是计算机中普遍使用的通用局部总线，嵌入式SoC中

学位

嵌入式系统芯片设计虚拟微片PCI总线

基于深度学习的汉盲自动转换技术研究

与本文相关的学术论文