论文部分内容阅读
随着科技的不断发展,普通人获取信息的方式越发便捷,但视障者、盲人等群体获取信息存在诸多问题。由于生理上的缺陷,多数视障者在获取学习及生活方面的信息存在巨大障碍。而我国约有1731万人处于全盲状态,由于获取信息不便,他们无法像普通人一样学习、生活及工作,故他们的生活水平处于一个较低水平。因此每个人都能平等、便捷、无障碍的获取信息成为了我们社会、甚至我们每个人所关心的问题。据调查,当前已有的翻译算法已解决汉语、英语、乐谱、数学公式到盲文的翻译,但尚未发现化学公式到盲文翻译的算法。而化学作为自然科学的一门重要的学科,其符号和公式广泛存在于各领域的文献资料中、同时也在药品和日用品说明书等领域大量存在。因此研究化学公式到盲文转换算法的重要性不言而喻。本文主要研究从CML、MathML等格式的化学公式到中国化学盲文的自动转换。文中先设计了CML文本到盲文的转换算法,其过程中发现由于CML本身的特性无法满足全部化学公式的翻译需求,因此引入MathML语言作为补充,设计了MathML文本转到盲文的算法。其研究的具体内容为:(1)基于CML的化学公式转换方法研究本文研究了CML的语法特征及中国化学盲文的标准规范,设计了一种CML文本到化学盲文转换的通用算法。算法中先把CML文本转换成DOM树,在此基础上根据映射、统计、递归以及动态规划等算法思想,将其解析成对应的盲文ASCII码和盲文。此通用算法包括解析一维线性化学公式的基于formula节点的翻译算法和基于统计的化学公式翻译算法,还有解析二维平面化学公式的基于映射的结构式翻译算法,以及基于CML和中国化学盲文准则的中国化学盲文规范化算法。(2)基于MathML的化学公式转换方法研究本文研究了MathML的语法特征及中国化学盲文的标准规范,设计了一种MathML文本到化学盲文转换的通用算法。对于其算法的通用性、扩展性及当前CML丢失化学反应式信息等不足的考虑,本文设计了一种优化版的规范CMLPlus(文中简称CML~+)。此算法先把MathML文本转换成DOM树,再根据递归、动态规划等算法思想,将其转换成CML~+文本,之后对此文本进行解析,最终转换成盲文ASCII码和盲文。在这些通用算法基础上,本文使用Java Web及DOM树解析技术研发了一款化学公式到盲文的自动转换系统Chem2Bra,即实现了化学公式到盲文的机器翻译。目前Chem2Bra已被中国盲文出版社(我国唯一官方盲文出版社)和中国盲文数字平台作为化学模块翻译工具投入使用。最后本文对Chem2Bra进行了测试实验,经过对中学课本常见的300个化学公式的测试实验,Chem2Bra的准确率达97.33%。因此Chem2Bra可满足我国盲人等视障群体的日常生活所用化学公式的需求,同样也能满足我国高中及以下特殊教育教学的需求。本文对于信息无障碍领域的基础性研究有积极作用。其研发的系统Chem2Bra支持转换的化学公式几乎覆盖了中国化学盲文标准中所有类型的化学公式以及初、高中化学教科书中的绝大部分化学公式。Chem2Bra可翻译的化学公式具体类型包括分子式、离子式、同位素、反应式等一维线性化学公式和结构式等二维平面化学公式。Chem2Bra具有良好的扩展性、移植性和适应性等特点,因此后续的更新迭代较为便捷。Chem2Bra作为中国盲文出版社化学模块翻译工具,可满足其相关工作人员翻译需求。