加扰条件下的中文字符识别算法研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:yuanjinxing1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前中文字符识别已经有成熟的方法,但网络中带有敏感词汇的文本图像为了逃避软件系统的检测,经常会对其进行加扰。因增加了干扰因素,使得传统的光学字符识别(OCR)技术无法对加扰处理后的文本图像进行有效识别,故研究此类文本图像识别对信息内容安全和信息传播安全有重要的研究意义。在传统的OCR基础上,本文针对加扰处理后的文本图像识别提出了新的算法。算法分为四个步骤:一,使用去干扰化、灰度化及二值化算法对文本图像进行初始化,以去除图像干扰;二,提出投影法与先验知识法相结合的单字切割算法,完成文本图像的单字分离,得到单字符图像;三,对所得到的单字符图像,提出基于动态时间规整(DTW)的单字识别算法进行匹配,得到初步识别结果;四,根据汉字结构特点提出基于特征向量和笔顺编码的字形相似算法以构造形近字库,并针对传统后处理方法的不足提出形近字库与语言模型相结合的后处理方法,实现对初步识别结果的纠错、优化,输出最佳匹配结果。通过实验对本文提出的一系列算法进行可靠性、适应性、抗干扰性以及整体有效性的验证。实验结果表明,在没有干扰时本文所述算法的准确率在百度OCR和腾讯OCR之下;在加扰密度为0.02时本文所述算法的准确率较百度OCR增加4.2%,较腾讯OCR增加5.7%;在加扰密度为0.05时本文所述算法的准确率较百度OCR增加4.2%,较腾讯OCR增加6.6%。综合结果,说明本文所述的预处理、单字切割、单字识别以及后处理等一系列算法在干扰因素较小时效果较为明显。
其他文献
根据电力通信网中的实际情况,提出了基于MPLS技术的VPN解决方案.说明了在电力通信网中VPN的应用,采用MPLS技术对于保证安全性、扩展性和服务质量(QoS)有重要意义.
利用哈特曼波前探测器测量固体激光器中由热效应引起的像差,通过与理论计算得到的像差进行比较,修正理论计算中的不足。在热效应分析的基础上,计算固体激光器中由热效应引起
具有高的生产效率,低的生产成本是多工序金属加工过程中的关键问题,要想达到上述目标,对金属加工参数进行优化设计是实现上述目标的重要措施之一.从企业生产经营的多目标这个
当前媒体融合是媒体发展的趋势,也是媒体平台发展的必然。在多媒体融合时代,电视新闻传播发展遇到了诸多障碍,产生了较大的影响。为此,在媒体融合时代下必须提升电视新闻传播
在新闻媒体的爆料下,娱乐圈的各种乱象被曝光在大众的视野中,如某艺人聚众吸毒、某明星偷税漏税、某大咖非法转移资产等等。娱乐圈的各种乱象造成了极为恶劣的社会影响,这些
通过工程实例,介绍了变频调速在供热空调工程中的应用以及变频调速的良好的节能效果和经济效益.
通过对某电厂机房工作环境的分析,指出了引发经常性故障的原因,提出了机房和层门结构改造的方案,解决该电厂电梯故障率高的问题.
在现代市场经济中,为摆脱日益恶化的竞争压力,企业需要在商业模式层面进行探索,通过商业模式创新为企业运营创造出理想的商业环境。商业模式是由若干相互关联的功能板块组合而成,基础板块包括:顾客价值主张、顾客问题解决方案方面、盈利模式以及企业的外部合作网络等。商业模式的形成是主观构思的结果,这意味着:板块的形成是企业决策层在学习思考、模仿创新的基础上,以其自身特有的方式设计出来的。由于商业模式的构成涉及顾