论文部分内容阅读
近年来,互联网上传播的内容已经大大超出了文本的范围,图片、音频、视频、文档等复杂的信息形式越来越多地出现在网络生活中,成为人们日常工作娱乐不可缺少的一部分。为了对这部分信息进行检索和监管,人们采取了各种各样的方法。网络图片作为数量最大、也是最早被人们纳入视野范围的网络媒体形式,其检索方案也已经发展得比较成熟。然而,随着社交网络和移动互联网的发展,一种图片和文本结合的信息形式开始兴起,这就是将文本通过工具转换而成的图片----图片化文本。针对图片的检索技术主要有以下几种思路:基于图片周围的文本、基于图片本身的内容,以及将这两种思路结合。其中基于图片的内容又可以分为比较简单的特征提取和比较高层的语义理解。对于图片化文本来说,人们更关注的是对图片中的文字进行索引、检索、查重等处理,其中最简单的操作便是字词检测。字词检测对于敏感词检测、舆情监控等领域具有很大的意义,而现有技术均无法很好地满足这个要求。本文的目标就是针对图片化文本提出一套适合大规模处理的字词检测方案。 本文首先提出了基于OCR技术的方案,其思路是将图片化文本先识别为纯文本,然后进行字词匹配。经过实验,这一方案在准确率和效率方面很难均衡,尤其是效率过于低下,很难满足大规模处理的要求。在思考改进办法的过程中,本文又形成了另一套解决方案----基于“逆OCR”的系统,其思路是将字词文本生成图片,然后用图片相似度算法来检测图片化文本中字词出现的可能性。这一方案在准确率和效率上都有优于第一种方案,而且提供了阈值调节的能力,可以根据实际应用场景在准确率和效率两方面进行平衡,系统的平均效率也控制在大规模处理的要求之内。