论文部分内容阅读
汉语-盲文转换在盲文出版、盲人教育等领域有重要应用,但当前主要基于人工完成,其过程效率低、成本高,导致盲文读物匮乏,盲人获取信息困难。已有的汉盲自动转换系统在盲文自动分词和标调方面性能不高,难以满足实用需求。当前已有研究大多基于“先将汉语分词再利用规则合并”和“匹配语料中出现的盲文词”两种策略,但盲文的分词连写涉及复杂的语法和语义规则,且词语无法穷举,导致计算机处理困难,性能受到很大限制。此外,基于机器学习的汉盲转换方法可大幅提高性能,但当前研究基于盲文语料库,在分词过程中损失了汉字的部分信息,会因为同音词混淆现象影响性能,并且已有研究采用传统神经网络,该模型在许多领域已逐步被深度学习方法取代。 针对上述问题,本文提出了基于深度学习和汉盲双语语料库的汉语-盲文转换方法,首次将深度学习技术引入该领域,并按照两种思路展开研究,提出了一种分步式的汉盲转换方法和一种端到端的直接转换方法。同时,为了支持上述两种方法中深度学习网络的训练,构建了一个汉盲对照双语语料库。 本文取得的成果如下: (1)构建了汉语和盲文对照的双语语料库 目前尚无在规模和内容上均适合深度学习网络训练的汉盲双语语料库,并且现有语料库主要通过人工构建,效率低、成本高。针对上述问题,本文采用了基于字符匹配的对齐算法,能够高效地从不精确对照的汉语和盲文文档中自动抽取文本形成语料库,并实现了篇、段、句、词的多级对照。本文采用126本盲文书籍构建了一个汉盲双语语料库,其中无标点语料规模为27万句,234万字,含标点语料规模为6.7万句,197万字。 (2)提出了基于深度学习分词和统计学习标调的汉盲转换方法 针对已有基于机器学习的汉盲转换方法使用纯盲文语料库和传统神经网络模型,性能难以进一步提升的问题。本文基于已构建的汉盲双语对照语料库,提出了基于深度学习分词和统计学习标调的汉盲转换方法,设计了基于双向长短时记忆网络、双向长短时记忆网络与条件随机场结合的分词算法,将汉语文本按照盲文规则分词,同时利用统计学习模型判断哪些字需要标出声调。该方法首次将深度学习技术引入汉盲转换领域,并且通过采用双语语料避免了对盲文进行分词和标调时遇到的发音混淆问题。实验结果表明,相对于基于传统机器学习和纯盲文语料库的方法,本文设计的方法在准确率上提升了6个百分点。 (3)提出了基于深度学习的汉盲直接转换方法 当前研究大多采用分词和标调分步的方法,但在标调时采用的模型相对简单,没有充分利用上下文信息。针对该问题,本文提出了一种基于深度学习的汉盲直接转换方法,充分利用可用的上下文信息,使用一个深度神经网络同时实现分词、标调和多音字读音选择三种功能。该方法将每个字的分词、标调、多音字读音等信息组合后作为字的标签输入深度神经网络,使其自动学习盲文的分词和标调等信息。实验结果表明,该方法准确率可达90.47%,高于基于深度学习分词和统计学习标调的分步方法。