松下网络OCR后处理系统

来源 :东北大学 | 被引量 : 0次 | 上传用户:lianjinling27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该论文描述了一个专为松下网络OCR引擎开发的OCR后处理系统.这个OCR引擎使用的是比较新但还不成熟的技术,现在它的词层识别正确率仅有50%.我们的OCR后处理系统是用来提高OCR引擎的识别正确率,提高OCR引擎输出文本的质量.该OCR后处理系统需要从一个识别正确率很低的文本中发现识别错误,并从中获得可以用来帮助改正这些错误的信息.该OCR后处理系统的主要贡献是通过语言学方法和知识库来提高OCR识别正确率,这些方法和知识库包括大的一个非常大的词条词典,字符转换混淆表,大规模加标语料库和统计语言模型.实验结果表明本OCR后处理系统可以在线发现很多OCR识别错误,可以使OCR识别正确率总体提高超过11%.
其他文献
随着多媒体技术和通信技术的蓬勃发展,音频视频数据在网络传输和交互日益广泛,特别是MPEG系列标准提出来以后,基于MPEG的应用更是一日千里,深入人心。本文将研究基于MPEG-4的4路
传输控制协议(TCP,Transport Control Protocol)是最重要的传输层协议之一,它提供端到端可靠的字节传输服务,被广泛的应用于互联网的各类服务中。然而,近年来,随着网络带宽和用户
该人结合自己参与《学校管理系统网络平台》软件开发实际工作,对B/S体系结构开发应用系统的有关技术进行了分析.在第二章以传统的C/S结构、三层体系结构、B/S结构特点进行了
模式串匹配技术广泛应用于网络和内容安全领域,是网络内容安全分析和深度检测的关键技术之一。在近几十年的网络飞速发展中,网络安全分析始终是影响众多领域的研究热点。随着网
随着计算机网络的迅速普及,电子商务已经成为国际上的热潮。如何结合电子商务教学,开发出适合教学使用的电子商务教学模拟系统,是一个新的任务。本论文介绍了电子商务教学模拟系
数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低决策风险的重要一环.因此,数据仓库需要高质量的数据.完成这项艰巨的任务就是ETL.该文主要研究基于元
深度学习技术是目前计算机科学中的研究热点,在图像识别、语音处理等应用领域中取得了巨大的成果。随着深度学习技术的推广与应用,越来越多的深度学习框架涌现出来,例如Caffe、T
深度学习是近年来机器学习领域最令人瞩目的方向。自2006年深度学习界泰斗Geoffrey Hinton在Science杂志上发表Deep Belief Networks的论文后,学术界和工业界对深度学习热情高
该论文是结合沈阳供电公司利用多银行代缴居民电费的具体项目完成的.在项目实施前的调研阶段,详细了解了供电公司居民电费收取的现状和银行利用中间业务平台进行代收代付业务
本文是在天涯科技公司入侵检测系统算法设计的基础上完成的。主要研究人工神经网络非线性数学模型和计算方法的计算机程序实现,为实现复杂入侵检测信息的非线性整合处理提供技