论文部分内容阅读
作为一项有着巨大前景的研究课题,自然场景图像中的文字检测与识别从一开始就受到国内外研究者的关注。它不仅对于基于文字内容的图像分析具有重要的作用,存在巨大的商业应用价值,同时,对于人工智能的发展也具有重要的理论意义,因此受到工业界和学术界的重视。图像中的文字通常包含重要的语义信息,检测并识别出这些文字信息对于完整的理解图像具有重要的意义。作为一项基础性的研究,图像文本的检测与识别与人们的日常生活、工作息息相关,它可以应用到票务、表格、身份证件的信息读取和查询,多媒体信息服务,车辆车牌的跟踪与定位,基于视觉的汽车导航,智能机器人等众多场合,给人们的生活带来方便。
目前,关于场景文字的检测与定位存在各种各样的技术与方法。但是由于自然场景图像中的文本与其他类型文本不同,它不仅受到多种环境因素的影响,同时文字本身属性也复杂多变,因此各种方法的检测效果都不尽如人意,迄今为止还没有任何一种方法能够快速、准确的检测所有图像背景下的文字。因此,研究一种通用性好,鲁棒性强,准确率高,并且能够对所有复杂背景下的文字实现快速定位和检测的方法仍然是一个有着巨大前景的方向。
本文通过对相关文献的学习和技术方法的总结、分析,在国内外专家与学者研究的基础上,对自然场景文字的检测与定位进行了进一步研究和探索。
针对场景文字的检测与定位,提出了两种解决方法:第一种方法是综合利用文字区域的边缘特征、角点特征、灰度信息,通过边缘检测,Harris角点检测和自适应的前景提取三种预处理来获得相应的文本特征图像;再通过滤波去噪和特征融合处理获得可靠的文本候选区域;最后经过形态学处理和连通域标记得到候选文本框,并采用经验规则进行精炼验证得到最终的文字区域输出。另一种方法是采用Gabor滤波和边缘检测得到相应的特征图像,接着对特征图像进行滤波去噪和形态学处理,并采用前文提出的特征融合技术得到候选文字区域;最后通过投影分析定位文本区域,并对文本区域进行二值化处理得到最终的文字提取结果。通过Matlab编程进行实验仿真测试和对比分析,证明了本文方法的可靠性与有效性,达到了令人满意的检测效果。
另外,文章对场景文字检测与识别技术的应用前景进行了全面的总结,提出了一种基于智能手机平台的场景文字检测与识别应用系统模型,并具体说明了各个模块的功能和系统的工作原理。该系统的设计为场景文字检测与识别技术的应用做出了贡献。
本文有效的利用了几种最可靠的特征图像和混合的预处理方法,使得它们能够相互补充,从而提高了算法对各种情况的适应性和鲁棒性,最终达到了预定的场景文字检测目标,取得了理想的检测效果。本文的研究不仅为场景文字检测技术引进了新的思路和方法,同时促进了该技术的应用与发展。