论文部分内容阅读
新疆是多民族、多语言、多文字和多元文化的地区,其中维吾尔、哈萨克、柯尔克孜(以下简称维哈柯)少数民族占新疆总人口的50%以上,其语言文字在新疆的文化、教育、新闻、出版等诸多领域发挥着重要作用。20世纪80年代,计算机技术开始应用于维哈柯文字处理,维哈柯文字库作为最基本的支撑软件随之产生。目前True Type、Open Type格式的维哈柯文曲线字库广泛应用于办公、图书、报刊印刷出版等领域。受技术条件的限制,早期未针对曲线字库制定维哈柯文字库相关技术标准,导致曲线字库在实际应用中存在字型编码不规范,字型不协调,混排时高低不平等诸多问题,对维哈柯文字库进行标准符合性检测,是规范维哈柯文字库,提高维哈柯文软件质量的有效手段。
2005年,国家有关部门组织专家着手维哈柯文信息技术标准的制定,其中有GB21669-2008-信息技术维吾尔文、哈萨克文、柯尔克孜文编码字符和包括GB25900-2010-信息技术信息处理用维吾尔文、哈萨克文、柯尔克孜文字型白体、黑体等21个字型标准。根据调研,目前还未出现标准符合性检测工具,广泛采用的人工检测的方法,不仅使符合性检测的成本增高,检测的质量也难以得到保证。提出维哈柯文库标准符合性检测方案,研发相应的工具软件、实现检测的自动化是一个非常有意义的课题。
针对维哈柯文字库存在问题,依据根据电子工业标准化研究所信息处理产品标准符合性检测中心的规范CTC/S-QD-005-01《GB18030-2000检测规范——操作系统》,维哈柯文字库标准符合性检测包括完整性检测和一致性检测。完整性检测是对维哈柯文字库中的字符编码的检测。一致性检测包括字形高度、宽度等基本参数的一致性检测和字符图形的一致性检测两个部分。维哈柯文字库标准符合性检测工具方案分为四个模块:字库解析引擎、完整性检测、一致性检测、结果分析。字库解析引擎主要负责解析字库文件,实现字形编码,基线,轮廓线坐标点等字形数据的读取,从而为字库的完整性检测和一致性检测提供必要的数据。完整性检测模块通过将被测字库中的字符编码与标准中的字符编码进行比较完成完整性检测。一致性检测模块中字符图形的检测采用模式识别的方法,通过计算被测字符图形与标准字符图形的相似度来量化判断被测字字符图形与标准字符图形的一致性,从而完成字库的一致性检测。结果分析模块负责综合检测结果,判断被测字库是否符合标准。
本项目在分析和调研维哈柯文字库存在问题的基础上,依据国家制定的字符编码标准和字形标准,确定了维哈柯文字库标准符合性检测的含义和内容;结合对TrueType Font技术,TrueType Font文件的基本构成的详细研究,提出了一个完整的检测方案,并在Windows XP操作系统和Eclipse开发环境下,最终实现了维哈柯字库标准符合性检测工具的开发。
最后通过开发的维哈柯文字库标准符合性检测工具对新疆民语委、新疆大学和本所等6个字库进行实验,验证了方案的可行性。结果表明该检测工具实现了完整性检测和一致性检测功能,满足维哈柯文字库检测需求。其中研究字库文件格式进行字库信息的获取和采用模式识别技术检测字符图形等检测方案的相关研究思路对汉字等其它语言字库的标准符合性检测也具有一定的借鉴意义。