图片化文本中的关键词检测

来源 :北京大学 | 被引量 : 0次 | 上传用户:nana9816245
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网上传播的内容已经大大超出了文本的范围,图片、音频、视频、文档等复杂的信息形式越来越多地出现在网络生活中,成为人们日常工作娱乐不可缺少的一部分。为了对这部分信息进行检索和监管,人们采取了各种各样的方法。网络图片作为数量最大、也是最早被人们纳入视野范围的网络媒体形式,其检索方案也已经发展得比较成熟。然而,随着社交网络和移动互联网的发展,一种图片和文本结合的信息形式开始兴起,这就是将文本通过工具转换而成的图片----图片化文本。针对图片的检索技术主要有以下几种思路:基于图片周围的文本、基于图片本身的内容,以及将这两种思路结合。其中基于图片的内容又可以分为比较简单的特征提取和比较高层的语义理解。对于图片化文本来说,人们更关注的是对图片中的文字进行索引、检索、查重等处理,其中最简单的操作便是字词检测。字词检测对于敏感词检测、舆情监控等领域具有很大的意义,而现有技术均无法很好地满足这个要求。本文的目标就是针对图片化文本提出一套适合大规模处理的字词检测方案。  本文首先提出了基于OCR技术的方案,其思路是将图片化文本先识别为纯文本,然后进行字词匹配。经过实验,这一方案在准确率和效率方面很难均衡,尤其是效率过于低下,很难满足大规模处理的要求。在思考改进办法的过程中,本文又形成了另一套解决方案----基于“逆OCR”的系统,其思路是将字词文本生成图片,然后用图片相似度算法来检测图片化文本中字词出现的可能性。这一方案在准确率和效率上都有优于第一种方案,而且提供了阈值调节的能力,可以根据实际应用场景在准确率和效率两方面进行平衡,系统的平均效率也控制在大规模处理的要求之内。
其他文献
在电子商务活动过程中,企业与企业之间需要交换各种数据,这些数据分别由不同的应用产生,具有不同的数据格式和商业意义。如何在企业之间传输和处理这些数据,实现商务流程的自动化
该文提出了一组基于数学形态学的字符图像处理算法:膨胀腐蚀算法的改进——比例胀蚀算法、去噪算法、平滑模板选取、基于区域扩散搜索的K值去边算法,并且针对经常出现的空心
虽然呼叫中心的历史不长,但发展速度非常快,应用范围越来越广,很多企业更是将呼叫中心视为在竞争中出奇制胜的法宝.可以预见,呼叫中心在铁路将会有十分广阔的应用前景.由于铁
我们和广东省人事厅合作开发的工资智能决策支持系统(SIDSS),由于存在着大量的随时间变化的数据和知识,所以我们将其作为研究时态数据库和时态知识推理的一个应用系统,这个系统
本文介绍了灌区管理信息系统的研究背景、需求分析论文针对该系统进行了两个方面的研究,一为面向对象方法在系统中的应用研究,包括利用UML对系统进行面向对象的分析和设计、面
旅客列车票额分配是在列车运能和运量不均衡的情况下,提高客流组织质量的重要手段。本论文从我国目前的客运实际需求出发,以现有的铁路客票发售和预订系统为基础,结合铁路客运营
该论文利用参数化绘图对固态继电器结构设计中常用的零件实现图形绘制,并构建了固态继电器的零件图形库.此外,利用AutoLISP语言对AutoCAD进行二次开发,定制快捷菜单或工具条,
该文展开研究并取得了以下成果:1.分布式防火墙环境下的网络安全信息描述技术.该文提出了基于XML的解决方案:通过XML-Schema技术实现了IDMEF DTD(Intrusion Detection Message F
该文以不确定性知识表示和处理的研究为背景,通过理论和实验验证相结合,在对Bayesian网方法全面了解的基础上,开展了Bayesian网推理方法及应用的研究.研究思路为:在分析Bayes
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己的DMBS。异构数据库的各个组成部