论文部分内容阅读
目标检测是计算机视觉领域的一个相当有发展前景同时又充满无限挑战的问题。随着人工智能和模式识别技术的发展,如何从图像中快速、有效地检测到目标物体已经成为多媒体技术研究领域中的热点问题。目前为止,虽然针对特定对象的识别任务已有较为成熟的方法并已经应用于日常生活,但如何设计出一套更为通用的目标检测系统仍然非常有挑战性。
本文首先对目标检测系统的整体设计给出了一个比较全面的论述,同时在目标检测领域已有的研究成果基础上,对其中某些关键技术,即特征提取与匹配进行了较为深入的研究,分析了一般图像特征和字符特征的特点。在此基础上,本文重点研究了形状上下文特征,并基于该特征提出了一种相对通用的目标检测系统,能够同时对图形目标和字符进行检测。
形状上下文特征是近年来提出的比较成功的描述算子之一,在目标检测领域得到了广泛应用。本文详细分析了形状上下文特征,并针对其问题和不足提出了改进。首先针对形状匹配中经常出现的仿射问题,本文利用模拟仿射的方式,由原始图像生成多幅仿射图像,扩充样本集,在此基础上进行特征提取,提高后期形状匹配准确率。除此以外,在训练过程中,训练样本的数量增多不仅会增加训练时的计算量,同时也会使特征匹配的速度下降。针对这一问题,本文提出了使用聚类对训练过程中提取的特征进行处理的方法。通过分析分层聚类和k-means算法各自的优缺点,我们使用基于分层聚类的k-means算法,得到一个树状结构的特征词典,从而减少特征匹配时的搜索范围,以达到提高检测速度的目的。最后,以上述算法为基础,给出了系统的详细实现方案,并以商标这一复杂对象(包括图形商标和字符商标检测)作为实验数据进行实验,对本文方法的可行性进行了验证。