电子书页展平模型及关键技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:wjhjordanaaaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文要解决的问题是:文档电子化过程中,对以数码相机为采集设备的文档图像展平修正的问题,其目的是去除数码相机采集的文档图像中的文档弯曲以及透视形变,从而提高录入文档图像的阅读体验以及后期的OCR识别率。 针对这一问题,作者对现有的文档图像修正展平方法进行了概括总结,描述了基于书页表面为柱面假设PKU&Laserfiche模型,着重分析了对实际书页图像修正中应用PL模型所面临的主要难点问题,提出了相应的算法与解决方案,并通过大量的实验验证了所提出的算法的有效性。在相关行业的国际比赛中也验证了本文描述算法的行业领先性。 本文的主要创新点在于,提出了利用文档图像中的文字行信息来提取PL模型所需要特征矩形框的新方法。该方法包括:通过图像的边缘信息,应用Hough变化、局部方向性增强和投影统计等算法,对书页图像实现分页分栏和文字行提取,进而获得进行文档图像修正所需要的特征矩形框。该方法解决了文档图像受环境影响因素大,书页倾斜且倾斜方向未知,书页表面弯曲,具有透视形变等在文档图像修正中较难解决的问题。 实验结果表明,本文所提出的方法能很好地应用PL模型对书页文档图像进行展平修正,处理后的文档图像在阅读体验和文档OCR识别率上都有大幅度提高。可以极大地提高图书电子化的便捷程度。
其他文献
为铁路旅客提供准确、便捷、丰富、及时的服务信息是树立铁路以人为本服务理念的具体表现,也是铁路信息化建设要实现的目标之一。通过在火车站的考察发现触摸查询技术的应用不
软件测试是保证软件质量和可靠性的一种重要技术。软件测试的开销在整个软件开发成本中占有重大比例,提高软件测试的效率对于降低软件成本具有重要的作用。在软件测试的过程中
交流在科学研究领域中起着至关重要的作用。现实中的期刊、学术会议等形式为学者们提供了交流的渠道;在网络上,需要这样一个平台,任何对学术感兴趣的人都可以在这个平台上自由地
RFID是一种非接触、多目标、移动目标识别的自动识别技术,目前受到了全球范围内的广泛关注和大力推广。但是RFID至今尚未能大规模应用,关键原因在于缺乏一套可靠高效的公共服务
模型转换是当今软件工程领域的热点研究方向之一。为了使模型转换规则能更好的复用,并且为用户提供方便使用的友好的界面,同时考虑到建模元素的语法结构和语义特性,本文提出了一
P2P文件共享系统在全球范围内的大规模应用,为用户的资源共享带来便利的同时,也给网络流量监管、软件版权保护等工作带来了新的挑战。针对P2P系统开展测量与可视化分析的研究工
近年来,流体模拟被广泛应用于各个领域,特别是在电影特效及计算机游戏中。从视觉效果角度出发,人们更关注的是流体液面的细节,如湍流、水面薄片、细流及飞溅的水花等。然而模拟这
三维物体姿态测量在日常生活、工业制造、科学研究等领域都有重要应用。近年来智能手机、平板电脑、无人机等移动终端迅速发展并广泛普及,它们大多同时搭载了相机(Camera,多为
三维模型的离散网格表示是计算机辅助设计(CAD)与计算机图形学的基本技术,也是许多后续处理和应用的基础。但是,离散网格模型上存在的孔洞、裂缝和随机的网格噪声,常常影响后续
本文设计和实现了一个交互式电脑游戏中的非玩家角色(non-player character,NPC)。NPC是一种处于动态、实时和复杂虚拟环境中的Agent,所以使这样的Agent产生智能行为是一个较