论文部分内容阅读
计算机技术、多媒体技术以及Internet技术的飞速发展带来了大量的图像信息,因此如何有效地、快速地从大规模的图像数据库中检索出需要的图像是目前一个急需解决的重要问题。基于语义的图像检索技术是在CBIR基础上发展起来的,研究如何从多渠道获取图像语义信息,并根据语义检索相关图像,是解决这一问题的有效手段。
本论文主要围绕图像底层特征的提取,以及如何从底层特征向高层语义过渡等问题展开详细的研究。本文首先系统阐述了基于内容/语义的图像检索技术的概念及特点,论述了基于内容的图像检索系统总普遍存在的“语义鸿沟”问题。对各底层特征的提取算法进行了研究和探讨,并作了相应的检索实验,证明了其作为CBIR索引图像时的特征的有效性和局限性。然后对图像语义的特征,图像语义的表示和图像语义的提取等做了深入的研究,并提出了从结构信息空间向语义概念映射的思想及具体方法。
作为本课题的一大理论基础,对神经网络做了相应的介绍,其中对BP网络的反向传播算法做了较深入的探讨,并结合本课题实际,提出了神经网络设计的设计准则。为克服“语义鸿沟”问题,本文提出了基于神经网络的图像语义识别的思想,并对相应的算法和系统的设计进行了详尽的描述。提取图像的四个主要底层特征,根据一定的准则设计所需的神经网,将特征参数输入BP网,采用共轭梯度法对网络进行有监督训练,一旦训练成功,依靠网络出色的泛化能力,系统就能正确识别图像中物体的种类、个数以及各物体的空间位置信息,这样就实现了对图像语义的理解。与一般的仅采用单个或两个特征的识别系统相比,该设计方案显著地提高了系统的可靠性,系统对特定测试图像集达到了轳高的正确识别率,且依然保持了较低的空间复杂度和时间复杂度。通过实验得到了如下的结论:虽然存在“语义鸿沟”的客观事实,但根据本文提出的思想,通过给相关图像传递语义标注,更新相关性强度,充实语义网络,就可以通过系统不断的学习来正确理解图像的语义。
最后对本课题作了总结和进一步工作的展望。