线联网图像高效标注和解译的关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:gaoqingshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为支持互联网大规模图像检索的一种有效和实用方法,互联网图像自动标注和理解已成为学术界和产业界的热点问题而被深入研究。本文研究了图像视觉内容与伴随文本语义之间的潜在关联关系挖掘、图像解译、大规模数据聚类以及图像视觉特征深度学习等关键性问题。论文的主要工作有:   一、提出了一种基于数据驱动的互联网图像自动标注和理解框架(AutomaticWeb Image Annotation and Interpretation,AWIAI)。在图像自动标注过程中,AWIAI框架先计算图像伴随文本中单词可见度属性来构建“图像-单词”关系矩阵,然后对该关系矩阵进行隐性文法分析以扩展备选标注单词,最后通过图像视觉内容的无监督学习和对单词两两共生关系进行分析和排序,得到图像标注最终结果。   二、在图像自动标注结果的基础上,提出了图像解译的概念和具体实现方法。现有图像自动标注方法未能对标注单词之间存在的语法关系进行分析,因此得到的图像标注结果是若干离散单词,难以对图像所蕴含丰富语义进行自然语言的深层次描绘(如对图像产生“熊猫吃竹子”的分析结果)。该方法在AWIAI框架下得到图像标注单词后,分析标注单词之间的语句关系,产生句法群组,以自然语言方式对目标图像内容进行解译。   三、对存在致密相似度关系的大规模数据,本文针对性提出了两种改进的近邻传播聚类的方法,即在聚类过程中通过局部信息传递来加快整体信息传递速度的方法,以及通过对局部采样数据进行信息传递,再将其它数据内嵌进去从而得到快速全局近似结果的方法。AWIM框架以数据驱动为核心进行图像智能处理,因此需要解决大规模数据高效聚类这一难点问题。   四、在AWIM的图像理解过程中,本文提出了一种结合模型和数据驱动的深度学习方法(Deep Model-based and Data-drvien,DMD)来提取图像理解中最具区别性的视觉特征。近来神经科学理论研究成果认为大脑对外界视觉信息感知是一个逐层学习过程。DMD方法通过一个从简单到复杂的深度学习流程来提取图像视觉特征,先以无监督学习方法获得特征并将其稀疏化,然后通过有监督学习方法实现图像语义理解和标注。
其他文献
随着现代科学技术的发展,脑成像、脑电技术设备等相关科学手段和分析方法的相继出现,人脑逐渐由“黑盒”变成“灰盒”。这为我们的科学研究提供了技术前提。最近许多学者认为建
学位
普适计算是信息空间与物理空间的融合,在这个融合的空间中人们可以随时随地和透明地获得数字化的服务;普适环境中上下文感知系统成为新兴的研究领域。而作为上下文感知计算的核
学位
科技文献是由文章的作者、标题、摘要、子标题、正文和参考文献等内容组成的,这些内容构成了科技文献的结构化特征。现有的科技文献检索系统都是基于关键词的检索,就是指将科
学位
手语是听力障碍者的第一语言,在听力障碍者之间及他们与健听人交流时被广泛使用。由于听力障碍者很难形成完整有效的书面语言能力,因此创建具有普适能力的手语合成系统具有很强
学位
机器人足球比赛已经成为当前人工智能和机器人领域的研究热点之一,其中,全自主足球机器人有着巨大的应用潜力,其应用领域包括自动驾驶、导游、未知区域的探索、核电站的维护
随着Andriod系统的流行,越来越多的开发者从事Android应用的开发并设计出了大量优秀的Android应用,这些应用满足了用户的各种需求。随着开发能力的提高,对移动设备性能有较高
针对连续型变量与离散型变量的多目标优化问题,分别提出基于博弈策略的多目标粒子群优化算法和面向旅行商问题(TSP)的协同进化粒子群优化算法。围绕群智能算法的优化原理与多
RDF数据是语义网上的一种重要数据。它们之间的关系需要推理机进行推理才可以获得,但是由于语义网上的RDF数据量规模性较大,语义网上传统的推理机不能很好处理这种大规模数据
学位
尽管搜索引擎极大的方便了人们在Web上进行信息查找,但其还是有着很多的缺点。问答系统以其符合普通用户习惯的表达方式、返回简单准确的答案弥补了搜索引擎的不足,成为信息检
学位
通过对MN的移动习惯进行形式化分析和解释性论证,针对切换时延、数据分组连续性和切换花费等关键问题,提出使用机器学习算法进行切换行为预测的智能辅助方案。为了降低MAG和L