基于图像识别和地址翻译的国际信函批译系统

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:como
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域的一个重要研究课题,对于目前高速发展的信息社会有着广泛的市场潜力和研究价值。随着科学技术的逐渐发展,基于图像识别的机器翻译开始引起人们的重视和关注。国际信函批译是指将国际信函上的英文地址信息翻译成相应的中文地址,然后批注到信函上,以便信函的进一步分拣和投递。本文以中国邮政集团公司上海研究院SATP-120型高速外信批译分拣机项目为背景,对国际信函图像中的地址翻译过程和条码定位识别过程展开研究。论文首先介绍了机器翻译的发展历程和相关技术研究,并对条码定位识别技术进行分析,最后,完成了基于图像识别和地址翻译的国际信函自动批译系统的开发。整个系统分为条码定位模块、条码识别模块、信函图像地址定位模块、OCR识别模块、地址理解模块和地址翻译模块,并深入分析各个模块的具体功能和关键技术。本文主要完成了以下工作:第一,结合图像处理算法,自动定位信函图像的地址区域。采用OCR识别算法,将图像中的英文地址转化为相应的文本信息。提出基于地址词库的OCR字符后处理,减少OCR识别结果中的误识字符对后续地址理解和地址翻译过程的干扰;第二,根据有限状态自动机算法设计地址理解规则,自动理解英文地址中的各项信息,如人名、公司名、路名、号码等。设计中英文号码的排序规则,使其符合当前的实际应用需求;第三,提出基于地址实例库与地址直译相结合的地址批译方法,实验证明取得了较好的翻译效果。第四,提出了一种复杂背景下的条码自动定位技术,该技术根据条码的梯度特征和角点特征,可以自动区分和条码类似的纹理,例如文字等,实现国际挂号信函图像中的条码自动定位。针对国际挂号信函图像采集过程中可能出现的非均匀光照,设计一种改进的Bernsm二值化预处理算法,从而有效地减少非均匀光照对条码识别的影响;将该系统应用于邮政批译分拣系统,测试验证机器翻译的正确率、错误率和拒绝率。实验结果表明,本文提出的设计方案满足了系统的需求,该课题的研究成果对于邮政自动化领域以及其他相关领域,都具有一定的实际应用价值。
其他文献
随着机器视觉、深度学习等领域的高速发展,基于视觉的智能化屏幕检测算法接连提出。虽然这些算法的检测效果越来越好,但是无法适用于新型号的数据并且无法对缺陷进行精细的评
随着万维网的迅速发展以及信息技术在各个科学领域的普及,数据的表现方式在同一科学领域的不同机构之间已呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利
随着经济发展,物流作为我国的朝阳产业,其重要性逐渐显现出来,它越来越受到各个行业的重视。如何解决物流配送问题己成为降低成本、增加效益的重要研究课题。配送路线的合理
随着互联网技术飞跃性的发展,Web上的网站数量和网页数量正以指数级的速度快速增长。Web已经成为一个拥有海量数据,数据类型多样,数据结构各异巨大的数据源。Web数据集成系统
云计算自从诞生以来,就备受瞩目,得到了快速地发展。然而,随着云计算规模扩大以及复杂度的提高,遇到的新挑战也是不断出现。负载均衡问题就是其中之一。负载的过重会严重影响
群体动画技术在电影、游戏等多媒体领域有着广泛的应用,因此群体动画生成与编辑技术越来越成为运动编辑方向的研究热点。目前对于大规模多人行为模拟的生成与编辑两部分研究
世界上半数以上的人居住在都市,都市是现代社会的中心。都市人群的生活包括衣食住行、学习、娱乐等多个方面,研究都市人群生活现状,无论对于政府、企业、社会组织,乃至个人,
随着全球化,信息化的迅猛发展,网络带宽的增长和网络安全问题的层出不穷对网络数据包的处理性能提出了新的要求。VPN和防火墙是企业和个人用户实现安全传输网络流量的重要手
本文研究模糊逻辑中蕴涵算子的构造。主要内容如下:   第一章:介绍了模糊逻辑的发展及目前国内外研究的概况,给出了后面章节需要用到的一些定义、定理,并且介绍了[0,1]上几种
随着软件规模的不断扩大,软件测试工作的复杂程度也大大增加,软件测试的成本也在不断上升。如何有效的对软件测试工作进行管理,提高测试效率,变得十分重要。测试管理工具能够