论文部分内容阅读
机器翻译是自然语言处理领域的一个重要研究课题,对于目前高速发展的信息社会有着广泛的市场潜力和研究价值。随着科学技术的逐渐发展,基于图像识别的机器翻译开始引起人们的重视和关注。国际信函批译是指将国际信函上的英文地址信息翻译成相应的中文地址,然后批注到信函上,以便信函的进一步分拣和投递。本文以中国邮政集团公司上海研究院SATP-120型高速外信批译分拣机项目为背景,对国际信函图像中的地址翻译过程和条码定位识别过程展开研究。论文首先介绍了机器翻译的发展历程和相关技术研究,并对条码定位识别技术进行分析,最后,完成了基于图像识别和地址翻译的国际信函自动批译系统的开发。整个系统分为条码定位模块、条码识别模块、信函图像地址定位模块、OCR识别模块、地址理解模块和地址翻译模块,并深入分析各个模块的具体功能和关键技术。本文主要完成了以下工作:第一,结合图像处理算法,自动定位信函图像的地址区域。采用OCR识别算法,将图像中的英文地址转化为相应的文本信息。提出基于地址词库的OCR字符后处理,减少OCR识别结果中的误识字符对后续地址理解和地址翻译过程的干扰;第二,根据有限状态自动机算法设计地址理解规则,自动理解英文地址中的各项信息,如人名、公司名、路名、号码等。设计中英文号码的排序规则,使其符合当前的实际应用需求;第三,提出基于地址实例库与地址直译相结合的地址批译方法,实验证明取得了较好的翻译效果。第四,提出了一种复杂背景下的条码自动定位技术,该技术根据条码的梯度特征和角点特征,可以自动区分和条码类似的纹理,例如文字等,实现国际挂号信函图像中的条码自动定位。针对国际挂号信函图像采集过程中可能出现的非均匀光照,设计一种改进的Bernsm二值化预处理算法,从而有效地减少非均匀光照对条码识别的影响;将该系统应用于邮政批译分拣系统,测试验证机器翻译的正确率、错误率和拒绝率。实验结果表明,本文提出的设计方案满足了系统的需求,该课题的研究成果对于邮政自动化领域以及其他相关领域,都具有一定的实际应用价值。