光学字符识别技术(OCR)的研究于应用

来源 :中国战略新兴产业 | 被引量 : 0次 | 上传用户:m83692590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别技术是指电子设备通过检测纸面字迹暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,该技术对生产生活有着重要作用。本文根据公开的UCI光学字符数据集,建立模型,通过字符特征识别字符,具体如下:首先,为了找出同一字符之间的特征的相似性,我们对26个英文字符进行了分类处理,并且对于每个字符每一项特征取平均值,将其作为一个判断基准。为了识别字符,我们首先建立了相似度之欧几里得距离模型,为了求出两个字符的欧式距离d(x,y)运用以下公式:d(x,y)=((x1-y12+(x2-y22+...+(xn-yn21/2=(∑i=1n(xi-yi2)1/2其中指字符x的各项特征值。通过对待求字符与每个字符进行相似度的比较,近似求出待求字符。但在模型检验过程中,我们发现,该模型对于相似度较高的字符,如"N"和"H"并不能很好的区分,且正确率仅能维持在%60左右。于是,我们对欧几里得距离算法进行了改进,将欧几里得距离与KNN邻近算法相结合,建立了第二种模型,大大提高了模型的精确度。欧氏距离—KNN模型将待求字符的16个特征值与2万条数据的16个特征值分别求出其欧式距离,得到2万组欧氏距离并且比较2万个欧式距离的大小,提取出前K个最小邻。分别统计这K个字符中26类字符每一类的个数,个数最多的那一类,即为所求数据所归属的那一类。为了评价所建模型,我们建立AUG-基尼指数评价模型,对于所求得的ROC曲线进行函数拟合,再利用定积分求出AUG,进而求出基尼指数对模型精确度进行评估。最后,我们利用每个字符的前70%对模型进行训练,并利用数据的后30%对模型进行了精确度测试,测试结果如下:第一个模型正确率达57.825%,平均耗时为0.676毫秒。第二个模型在选取最优的K值和训练数据数量时,正确率高达95.265%,此时耗时为233.09毫秒。而且当精确率达到85%以上时,耗时均在80毫秒(0.08秒)以上。总的来说,字符识别模型一的精确度略低,但是省时省力。模型二虽然更加耗时,但是识别的精确度大为提升,生产应用中,应当根据实际情况采取不同的模型。
其他文献
焊接残余应力是焊接结束后残留在焊件内的应力,残余应力对焊接结构的强度、腐蚀和尺寸稳定性等使用性能造成影响。虽然在结构设计时,考虑了残余应力的问题,在工艺上也采取了
月经病是妇科常见疾病,包括月经的周期、经量、经色、经质等异常改变。思维导图运用图像与文字并重的技巧,把各个级别的内容和主题的关系用相互隶属与相关的层级图表现出来,
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
报纸
大体积混凝土的温度、裂缝控制一直是困扰公路工程的一大难点,也是共同研究的重要问题,主要是因为大体积混凝土抗拉能力相对较低,原材料也极易发生形变,导致不同程度裂缝的产
随着新的农村义务教育经费保障机制的建立和新《义务教育法》的颁行,我国农村义务教育已经跨入了由数量关注到质量提升的新阶段。在全面提升农村义务教育质量的进程中,南疆四
深入研究我国艾纳香属(Blumea DC.)植物资源和开发新资源,从而系统全面的了解该属植物资源状况。通过查阅文献资料、实地调查、标本采集、分类鉴定等相结合的方法,确定了我国艾
实现任意两量子比特之间和任意多量子比特之间的可控耦合是构建可编程量子处理器的关键问题,这些所需的耦合可以在量子点电路中实现。通过将多个双量子点分子与中心导体相连
在对民航空管铜仁雷达站遭受雷击现场调研的基础上,重点分析了雷击造成INDRA雷达编码器故障、MICA02板故障的原因,发现该站在直击雷防护、感应雷防护及接地、信号系统防护等
当前科学技术的飞速发展,使得各种现代技术在各个行业中都有了极为广泛的运用。同时,电力系统在使用电气工程及其自动化技术时,也为电力系统自动化发展明确了科学的方向。因
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技