基于人工智能机器学习的文字识别方法研究

被引量 : 32次 | 上传用户:abby412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是当前人工智能领域中新兴的研究热点,已在机器视觉、语音识别、自然语言处理、网络搜索、推荐系统、智能机器人等复杂系统中获得成功应用。尤其是近两年基于人工智能机器学习的自动驾驶、深度问答技术问世,其在某些方面超过人类智能的操作水平,使得人们开始重新思考‘机器是由人类发明,其智能水平永远不会超过人类’这一观点。字符集庞大的汉字识别一直是文字识别领域的难点问题,与由少量字符组成的英文文字不同,很难使用传统的算法对其进行自动识别。得益于人工智能机器学习的深入发展,汉字的自动识别录入已进入实用化阶段,不少国内外软件厂商相继推出识别率不错的汉字自动识别系统,但依然有较大的改进空间。在现有的国内大量文献中,主要都是针对少量字符的自动识别研究,很难将其应用到大字符集的识别对象中,这与机器学习自身结构及学习算法特性紧密相关。当前国外主流的解决办法是:用学习器训练出多个分类器对字符特征向量进行分类,然后对各分类器输出结果进行投票统计,将得票最多的结果作为最终输出。本文以医学病历单的自动识别录入为研究对象。本着多角度识别、交叉验证的思想,提取字符图像的多组特征,对每组特征单独训练出分类器;最后在一定的容错条件下,将各分类器的输入特征向量与输出对应于事先保存库内的典型特征向量进行交叉验证,输出验证匹配最多的结果。实验证明,该方法不但可以正确的识别输出,还可自我发现识别错误,为实现文字识别系统的错误自发现和自修正功能打下基础,是本文的一大亮点。另外,本文还对支持向量机(SVM)、BP神经网络的分类性能进行了对比分析,对文字识别中学习器的选择具有一定的指导意义。
其他文献
在经济全球化和网络化的趋势下,我国金融业对外开放及融入全球金融体系的步伐正逐步加快,与此同时,也须应对目前国际银行界共同面临的反洗钱这个严重的问题。本文在阐述反洗
我国现行宪法规定来看,表面上是已经建立违宪审查制度,但可以说它是一个“空的”,因为我国违宪审查制度尚未建立健全,只是把“违宪审查”作为监督宪法的有效措施,在宪法监督
近年来国内食品安全问题频频曝光,人们对于食品安全的要求越来越高,这种要求使得冷链物流也越来越受到人们的重视,冷链物流中心的建设也在国内各地如火如荼的开展。冷链物流中心
有收藏刀剑爱好的人并不多,收藏者本身要具有丰富的知识,还要有一种侠客的情怀。拔刀斋收藏有一百多把古刀剑,其中不乏精品名刀,主人皇甫江对刀剑的历史与制造工艺如数家珍
期刊
随着我国经济的快速发展,社会建设在各方面均取得了瞩目成就,我国的法治建设也开始走上正轨。人权保障理念在我国司法领域中越来越受到重视,新修订的《刑事诉讼法》明确地规定了
麻疯树(Jatropha curcas Linn)属于多年生草本产油植物,其种子含油量高,是国际上研究最多的产油植物之一。麻疯树种子油碘值低,可做为工业用油适用于各种柴油机,然而目前生物柴油发
对于长期以来一直以粗放管理著称的电力施工企业而言,建立起一套符合自身特点的信息化企业经营管理控制标准体系,以及具体的操作流程及方法就显得尤为必要和极其重要。目前电
美国联邦通信委员会(FCC)于2002年2月批准超宽带(UWB)系统的商用频段频为3.1-10.6GHz。超宽带系统由于其高的数据传输速率、大的信息容量、低功耗等优点吸引了学术界和工业界的广
发达的铁路运输一直以来被人们当作是推动经济发展的重要因素。近年来,为了更好的推动我国的经济发展,列车行驶速度加快,行车密度加大已成为铁路运输必然的发展趋势,但伴随而来则
在线图书管理系统是最近随着互联网络的发展而发展起来的一种新型的图书营销模式。随着计算机网络的发展和人们精神需求的提高,现在的图书销售已经不是单一的实体店销售模式了