融合文本信息的图像分类和标注关键问题研究

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:yiwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网和图像技术的飞速发展,越来越多的信息以图像的形式表达,比如,网络上的新闻往往都包含图像,网络购物通过图像展示商品,这也使得图像日益成为网络数据的主要组成部分。如果对这些海量的图像进行高效、可靠和智能化的分类和标注,这样有助于指导用户从这些数据中方便快捷地找到最有价值的内容。单纯利用图像视觉特征进行分类和标注是一项比较困难的任务,可以考虑从其它领域中挖掘有用的知识到图像领域中。一些与图像相关的文本信息,例如图像的属性,图像周围的标注词或者文档,以及与之相关的文本描述等,可以非常方便地自动从网络中获得,并且文本挖掘技术已经相对比较成熟,因此将文本信息应用到图像分类和标注的想法变得顺其自然。加入了一些文本的先验知识,可以提高图像分类和标注的性能;并且文本信息可以自动获得,不需要人工干预,可以节省人力,提高效率。本文主要研究如何融合文本信息进行图像分类和标注,始终以图像和文本的信息融合相关技术为主线,以提升图像分类和标注的性能为目的。主要创新点包括:(1)图像标注的性能会受到标注集大小的影响,当只有少数标注样本时,图像标注的性能通常不能令人满意。提出一种基于半监督低秩映射的图像标注方法,主要思想是学到一个从图像的视觉特征到标注词之间的直接映射关系。半监督的约束可以充分利用少量的已标注数据和大量的未标注数据,引入了一个流形正则项,表明如果两个图像在原始特征空间比较相似,希望它们通过映射之后在新空间也保持相近。这样的映射可以得到数据的本质结构。低秩的约束可以有效的挖掘图像视觉特征和文本标注词之间的关系,并且可以根据这个关系,处理标注词丢失或者错误的情形。在实际数据集上进行了测试,实验结果表明,该方法可以发现标注词之间的相关性,并且图像标注的性能高于对比的方法。(2)针对图像与文本的数据特征维度较高,并且数据中含有较多噪声的问题,提出了一个基于鲁棒异构迁移学习的图像分类方法。该方法将图像和文本数据映射到一个共享隐含空间,同时引入了两个错误矩阵,分别描述在文本和图像领域中的稀疏噪声。共享的隐含空间是沟通两个领域的桥梁,它可以将更准确的知识从文本领域迁移到图像领域中。在得到共享隐含空间之后,将每一个目标分类任务中的图像映射到这个新的特征空间中,进行数据重表示。在重新表示的图像基础之上,建立传统的分类器,进而完成图像分类任务。通过迭代交替的方法求解目标函数,同时给出了算法的收敛性分析,并且通过实验验证了该方法可以有效地解决图像和文本数据中的噪声问题。(3)将图像分类和标注任务结合起来,提出了一种基于判别稀疏主题模型的图像分类和标注方法。在视觉词和标注词的生成过程中,引入了类别信息,这样能够保证每个隐含的主题由与这个类别相关的词构成,与这个类别无关的一些视觉词或者标注词就会被忽略掉,也就是说学到的主题具有判别性。在主题的生成过程中,引入了0均值的Laplace分布,这就使得每个主题只包含少数的视觉词或者标注词,同时每个图像由少数的几个主题表示,也就是说学到的主题具有稀疏性。在识别的主题空间中,对图像进行稀疏表示,有助于训练一个更好的模型,提升图像分类和标注的性能。(4)为了计算图像领域和文本领域之间相关性,提出一种通过共现数据学习有向环网络的方法,并且把它作为图像-文本异构迁移学习算法中的迁移权重。为了利用异构的共现数据构建网络,首先用主成分分析方法对数据进行重表示,然后利用Markov Chain Monte Carlo优化方法构建一个有向环网络表示迁移权重。其中,有向环网络中的每个点表示一个领域,一条有向边表示从一个领域到另外一个领域的迁移权重。当这个权重比较大/小时,表示需要迁移较多/少的知识从源领域到目标领域迁移。实验结果表明,学到的权重可以有效地得到领域之间强或者弱相关的关系,从而提升图像领域中目标任务的性能。综上所述,本文的主要贡献是融合文本信息,提高图像分类和标注的性能。
其他文献
目的:从循证医学的角度探讨C-反应蛋白与小儿细菌性和病毒性腹泻的关系和意义。方法:检索中国学术期刊网等获得已发表的C-反应蛋白与小儿腹泻的病例对照研究,采用ReMan4.2进行M
目的:探讨总结护士人文素质和护理道德培养在处理护患关系、提高护理质量中的重要性。方法:针对护士素质和道德培养存在的问题进行分析,认为当前主要存在的问题有对自身素质和
不久前,中国科学院南京地质古生物研究所研究员陈均远以及云南大学侯先光教授和西北大学舒德干教授,通过对“澄江动物群”的发现和研究,在世界上首次揭示了“寒武纪大爆发”的整
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
基于语义信息的图像分类是解决语义图像理解与分析的重要途径。反映图像中对象之间相互关系的图像上下文信息,既是人类视觉识别系统中的重要信息来源,也是重要的图像语义信息
随着定位设备和视频捕捉设备的广泛应用,时空轨迹数据的获得变得越来越便捷。例如,人们在社交网站(如Foursquare)上和朋友们分享自己的位置,这就产生了大量的签到数据。又如,
人工智能技术发展已近70年,在此期间各种智能化方法被提出用于解决各种实际应用问题,其中模糊识别技术及模糊智能系统建模技术在医疗、控制、经济等领域得到了广泛的关注及使
“老师,我怀疑自己有精神病,常常被一些莫名其妙的念头所干扰。从寒假开始,起初我只是看书时偶尔看看页码,可不知为什么,后来发展到一看书就忍不住注意页码。我知道这样会分散我的
高校党的建设与事业发展相辅相成,抓党建是为了促发展,抓发展必须要强党建。高校各级党组织要以习近平新时代党建思想为指导,加强统筹谋划和顶层设计,找准党建与发展的有机结
<正>有调查显示,我国有1.2亿农民长年在外打工,因此,产生了近2000万留守儿童,其中14岁以下的占86.5%。留守儿童已成为一种普遍的社会现象。这个特殊群体规模正在不断扩大。按