【摘 要】
:
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词
【基金项目】
:
国家杰出青年科学基金(61125204)资助~~
论文部分内容阅读
为了提高OCR识别率,许多校对算法被提出用作后处理.这些方法利用自然语言规律统计大量的语料库进行语法判断.由于语料库规模有限且无法及时更新,导致一些网络新词、专用名词等常被错误处理.为此,文中将传统的语料库和Google知识库相结合,利用Google知识库获得网络新词等出现的频率,建立N-Gram模型,利用词语间的接续关系进行查错,再借助Google的拼写校对功能和词语之间的可信度进行改错.相比传统的方法,该方法的语料库源于互联网,对一些新词有更好的校对效果,更适合图像中嵌入的文字信息识别结果的校正.
其他文献
一种语言的词语是有限的,而人的交流是无限的。来自于大脑的对任何语言符号的推断是人类成功交流的独特智慧,而意义、信息和文化背景的相互作用在人的交流过程中具有重要的作用
综合评价方法众多,本文针对应用较广的运筹学和数学综合评价方法,阐述了其基本思想,探讨了其适用领域,重点梳理了其研究文献。
近年来,轨道交通在我国飞速发展,在肩负起我国几大经济带和重点城市的运输任务的同时,轨道交通也面领着快速增长的客运量和安全保障方面更大的挑战。开展轨道交通安全状态评
<正>员工忠诚度就是指员工对企业的忠诚程度。它是员工对组织承诺的具体反映,是与工作有关的态度的表现形式。员工忠诚度的最终表现是员工是否愿意继续留在该企业供职和尽力
针对全日制专业学位研究生的培育呈现出"实践应用和职业导向"的特征以及需要建设高品质实践基地加以保障,对国内代表性建筑院校的现况进行调研,重点从实践基地的遴选和签约、
尤金·奥尼尔是美国著名剧作家,表现主义文学的代表作家,也是美国民族戏剧的奠基人。他成功运用或实验了现实主义、自然主义、象征主义、表现主义、现代心理学精神分析、内心
<正>日前,科尼新一代C系列叉车亮相2014年德国汉诺威国际物流技术展览会。全新C系列叉车创新设计的驾驶室具有同类产品中的首创功能,既增强操作安全性和舒适性,又提高设备生
文本重组是一种有效增加课堂教学容量,将课内外作品合在一起进行施教的新的教学方式,它是对文本的一种创造性使用,是有效完成教学目标的重要条件。为此,教师应在把握学生起点
目的研究荆芥穗的化学成分。方法利用色谱技术进行分离纯化,波谱技术进行结构鉴定。结果从荆芥穗中分离得到10个化合物,分别鉴定为:木犀草素(I);芹菜素(II);反式桂皮酸(III);
《致海伦》是美国浪漫主义诗人爱伦·坡最为著名的抒情诗之一。在此诗中,诗人借希腊神话中美女海伦的形象表达独特的审美观,以娴熟的手法创造出诗歌的音乐美。他认为诗歌是对