基于神经网络与图像语义的模式识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sheng45724575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术、多媒体技术以及Internet技术的飞速发展带来了大量的图像信息,因此如何有效地、快速地从大规模的图像数据库中检索出需要的图像是目前一个急需解决的重要问题。基于语义的图像检索技术是在CBIR基础上发展起来的,研究如何从多渠道获取图像语义信息,并根据语义检索相关图像,是解决这一问题的有效手段。 本论文主要围绕图像底层特征的提取,以及如何从底层特征向高层语义过渡等问题展开详细的研究。本文首先系统阐述了基于内容/语义的图像检索技术的概念及特点,论述了基于内容的图像检索系统总普遍存在的“语义鸿沟”问题。对各底层特征的提取算法进行了研究和探讨,并作了相应的检索实验,证明了其作为CBIR索引图像时的特征的有效性和局限性。然后对图像语义的特征,图像语义的表示和图像语义的提取等做了深入的研究,并提出了从结构信息空间向语义概念映射的思想及具体方法。 作为本课题的一大理论基础,对神经网络做了相应的介绍,其中对BP网络的反向传播算法做了较深入的探讨,并结合本课题实际,提出了神经网络设计的设计准则。为克服“语义鸿沟”问题,本文提出了基于神经网络的图像语义识别的思想,并对相应的算法和系统的设计进行了详尽的描述。提取图像的四个主要底层特征,根据一定的准则设计所需的神经网,将特征参数输入BP网,采用共轭梯度法对网络进行有监督训练,一旦训练成功,依靠网络出色的泛化能力,系统就能正确识别图像中物体的种类、个数以及各物体的空间位置信息,这样就实现了对图像语义的理解。与一般的仅采用单个或两个特征的识别系统相比,该设计方案显著地提高了系统的可靠性,系统对特定测试图像集达到了轳高的正确识别率,且依然保持了较低的空间复杂度和时间复杂度。通过实验得到了如下的结论:虽然存在“语义鸿沟”的客观事实,但根据本文提出的思想,通过给相关图像传递语义标注,更新相关性强度,充实语义网络,就可以通过系统不断的学习来正确理解图像的语义。 最后对本课题作了总结和进一步工作的展望。
其他文献
随着科学技术的不断发展与进步,传统的音频领域实现了从模拟到数字的转变,并和IT行业越来越紧密地联系在一起。IT领域的科技成果越来越普遍应用于音频领域(如DSP的发展),并大大
合成孔径声纳(Synthetic Aperture Sonar, SAS)是一种高分辨率成像声纳,其基本原理是利用小孔径基阵的移动来获得方位向大的合成孔径,从而得到方位向的高分辨率。无人水下航行
合成孔径雷达是一种新的成像雷达技术,具有全天候、全天时、远距离、高分辨率成像的能力,在军事和民用方面都有重要的应用价值。本课题结合中科院电子所承担的项目对机载高分辨
随着无线多媒体业务、无线网络和移动计算设备的迅猛发展,近年来能支持高速数据传输速率的宽带移动通信系统成为研究热点。正交频分复用(OrthogonalFrequency Division Multi
随着现代计算机技术的发展,人与计算机之间交流的界面早已不局限于鼠标和键盘。越来越多的新的交流手段被引入到计算机中来,而语音数字处理和语音识别技术的进展使语音逐渐成为
本文所做的主要工作如下: (1)系统地分析研究和归纳总结了盲均衡的基本理论,诸如均衡准则、算法形式、性能指标等。重点分析了Bussgang类盲均衡算法中的CMA盲均衡算法。
网格技术的普及,已经促使众多行业领域开始着手进行行业内信息基础设施的网格化改造,在空间信息领域也不例外。国家863计划中与SIG(Spatial Information Grid)相关的研究课题早
网络数据库系统作为数据库系统的重要组成部分,在近年来得以飞速发展。现代电子商务,政务、企业管理系统都可以看作是网络数据库系统。网络数据库系统是开放环境下的信息仓库
近年来IPTV受到前所未有的关注,特别是今年,更是受到大众媒体的追捧。这是由于IPTV的发展涉及了众多的行业,包括内容提供商、网络运营商、系统设备制造商、终端厂商等,并与广大电
随着移动通信的迅速发展,移动通信业务从传统的话音业务向以Internet接入和多媒体业务为主方向发展的趋势已经清晰可见。未来移动通信的目标在于建立一个无处不在的全IP分组数