Hadoop平台下的并行文字识别技术研究

来源 :中国电子商情·通信市场 | 被引量 : 0次 | 上传用户:MWinnie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术及计算机日益普及的今天,利用OCR(光学字符识别)技术将图片类型的文字材料方便、快捷地输入到计算机中并转化为文字已经广泛应用于各行各业,但随着文件数量的急剧增长,在面对海量图片数据时,逐个逐页文件的单机识别模式已逐渐不能满足使用者的需求,分布式系统是解决海量信息存储及处理的有效方式.通过分析HDFS的特点,使用MapReduce这一机制,提出利用Tesseract-OCR引擎对文字图像进行并行识别处理的方法,为今后使用OCR技术进行海量图片识别处理提供了借鉴参考.
其他文献
目的 探讨影响结直肠癌肝转移的危险因素.方法 回顾性分析1989年1月至2004年12月收治的1341例结直肠癌患者的临床资料.结果 1341例结直肠癌患者中有肝转移者155例,发生率为11
脉冲震荡(impulse oscillometry,IOS)法在平静呼吸的基础上测量患者肺功能,无需患者特别配合,操作简单快捷,有广阔的应用前景.本文介绍了IOS技术的原理及临床应用现状,并重点
目的 探讨小儿左心衰竭和肺水肿的临床特点和抢救方法.方法 回顾分析了22例左心衰竭和肺水肿患儿(其中肺水肿7例)的临床资料,以及对气管插管、人工机械通气,小剂量吗啡静脉注
间变性大细胞淋巴瘤是非霍奇金淋巴瘤的一种亚型,具有独特的病理学改变和生物学行为,发病率较低,关于其治疗方法、结果及预后的文献报道有限,目前尚无规范成熟的治疗方案。笔
目的 探讨常规细胞遗传学(CC)、巢式反转录-聚合酶链反应(RT-PCR)及双色双融合荧光原佗杂交(D-FISH)三种技术监测慢性髓细胞白血病(CML)患者干扰素(INF)治疗过程中肿瘤负荷的
目的 探讨MRI相位对比序列(cine PC)研究和分析脑脊液流动的可能性,并运用该技术对正常志愿者进行分析.方法 采用MRI cine PC序列, 对正常志愿者进行分析,并测量中脑导水管上
目的 分离和纯化小鼠子宫内膜边缘群(side population,SP)干/祖细胞,为进一步探讨产后子宫修复的细胞机制奠定基础. 方法 分别采用酶消化和机械分离结合法与机械研磨分离的方
疟原虫乳酸脱氢酶是疟原虫糖分解途径的关键酶,由无性期和有性期虫体产生.感染人类的4种疟原虫有不同的乳酸脱氢酶异构体,使其具有种属特异性,已成为新一代疟疾快速诊断方法
目的 了解我院麻醉药品使用情况,进一步加强麻醉药品安全管理,使用好麻醉药品.方法 统计我院2002年至2006年麻醉药品药库出库数据并进行分析,采用有效管理对策进行麻醉药品管
目的 探讨玻璃体切割联合玻璃体腔注药治疗外伤性眼内炎的临床疗效.方法 回顾性分析22例(22眼)外伤性眼内炎患者的临床资料.结果 4眼单纯药物治疗,18眼行玻璃体切割联合玻璃