面向感知的图像场影及情感分类算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:john20002000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术和计算机网络技术的发展,人们接触到的图像数据以前所未有的速度增长,越来越丰富的图像资源使用户难以在浩如烟海的数据中找到自己真正需要的信息。因此,对图像数据进行有效的分类组织成为目前迫切需要解决的问题。在图像的分类过程中,用户关心的是在概念层次上的图像内容,即图像所描述的对象、场景以及表达的情感等。但是,限于目前计算机对图像理解的技术水平,直接从图像的低层视觉特征推理出图像的高层语义还十分困难。本文从人的认知角度出发,以“视觉词包建模―语义主题建模-情感映射函数构建”为路线来弥合图像低层特征和高层语义之间的语义鸿沟。论文工作的前半部分主要研究图像的场景分类算法,着重讨论如何为图像构建符合用户感知的语义视觉词包模型,以及如何有效地融入上下文语义信息提取图像的语义主题以改进场景分类性能。论文工作的后半部分主要研究图像的情感分类算法,着重讨论如何基于视觉认知理论,建立有效的机器学习模型来解决图像的情感分类问题。  (1)提出一种基于信息瓶颈理论的图像场景分类算法  在基于“视觉词包模型(Bag of Visual Words)”的图像场景分类算法上,由于其性能在很大程度上依赖于视觉单词(Visual words),因此本文提出了一种基于信息瓶颈理论的图像场景分类算法,无需手工标注利用语义相似性生成视觉单词,这与目前依据视觉相似性生成视觉单词的思路有显著的区别。其原理是,首先基于图像的场景类别标签,采用高斯混合模型(GMM)将图像区域的低层视觉特征转换为表征语义类别标签的特征;其次,基于信息瓶颈理论(IB)依据语义相似性聚类生成语义视觉单词;最后以语义视觉单词的出现频率表示图像的场景内容,完成图像场景分类任务。  (2)提出一种基于上下文语义信息的图像场景分类算法  在基于“语义主题建模”的图像场景分类算法上,为了能同时克服视觉单词中存在的同义(一义多词)和多义(一词多义)问题,本文基于视觉认知理论,提出了一种基于上下文语义信息的图像场景分类算法,将图像区域的视觉特征相似性与语义概念相关性相结合构建语义主题。其原理是,首先采用概率潜在语义分析模型(pLSA)挖掘视觉单词之间的语义共生概率;其次利用马尔科夫随机场(MRF)理论中类别标记的伪似然度近似策略将图像区域的视觉特征相似性与语义概念相关性有机地集成起来,充分发挥这两种信息对于语义主题生成的贡献,最后语义主题的出现频率表示场景内容,从而有效地提高场景分类算法的性能。  (3)提出一种基于Affective-pLSA模型的图像情感分类算法  针对图像的情感分类问题,本文基于视觉心理学的相关成果,提出了一种基于情感概率潜在语义分析(Affective-pLSA)模型的图像情感分类算法。与传统的算法不同,该算法并不是利用已有的机器学习算法建立低层视觉特征和高层情感语义之间的映射关系;而是针对图像情感分类问题的自身特点,改进概率潜在语义分析(pLSA)模型生成一种符合人类情感感知规则的Affective-pLSA模型,作为映射函数完成情感分类任务。算法的原理是基于视觉认知理论,即一幅图倒的情感语义是由图像中视觉单词按照一定的共生规则组合表达的,首先以视觉单词间的共生概率值为基元构建图像的矩阵表示;其次利用Affective-pLSA模学习图像的情感主题;最后采用多标记K近邻算法(ML-KNN),基于图像情感主题的出现频率进行情感分类。需要指出的是,传统的pLSA模型反映的是潜在主题与视觉单词本身的概率关系。而Affective-pLSA模型试图挖掘出反映图像某种情感语义信息的视觉单词的共生频率关系,即潜在主题与视觉单词共生频率的概率关系。而这种潜在主题与视觉单词共生频率的概率关系恰能有效地契合视觉认知理论。
其他文献
语音识别是利用计算机对人类的语音进行处理,将语音信号转化为文字符号的一种技术。国内外对汉语语音识别的研究已经有了近60年的历史,取得了很大的进展,但仍存在很多问题。
近年来,随着Internet的快速发展,基于B/S模式架构的.NET技术把Web编程推向了一个新台阶。加上企业对资产管理的业务操作透明化、明细化的需求,基于网络环境的资产管理系统受
近年来Internet发展迅速,网络上需要组通信支持的各种分布式应用不断增多。作为支持组通信的主要技术,传统的IP(Internet protocol)组播技术要求网络为每一个组播组(甚至组播组
随着计算机科学的发展,各行业对软件产品的质量和开发周期提出了更高的要求。面对持续变化的需求,软件本身需要快速地做出响应。建模工具作为软件设计过程中的主要辅助工具,可以
全球经济的发展表明,一个国家的综合实力主要取决于其制造业提供产品和服务的能力。车间是制造企业管理和生产的基础环节,是企业管理与生产制造的结合部位,也是企业信息流与
装配序列规划是产品生产中的一个重要环节,合理的产品装配序列对装配效率的提高、装配成本的降低和装配质量的保证等有重要影响。因此,对装配序列规划的研究具有重要的理论意
建筑物的毁伤效果模拟属于虚拟场景生成的范畴,在游戏娱乐、军事训练、广告与电影制作、旅游等各个领域有着巨大的应用前景。传统的虚拟场景生成方法往往需要对场景进行三维重
统一建模语言(UML)是在多种面向对象建模方法联合的基础上形成的建模语言。它以支持面向对象、可视化建模和强大的表达能力等优点已经被人们广泛的用于多种类型的系统建模。
统计数据表明,我国的餐饮业正处于高速发展时期,与此同时,消费者对餐饮业的服务要求也越来越高,餐饮行业也面临着物价上涨和人力资源成本快速增加的压力。如何提高效率,减少
对业务流程建模是将业务流程计算机化的必要手段,同时工作流建模属于工作流管理系统的三大主要功能,目前已经成为工作流技术的研究热点之一。论文选择在形式化描述和直观图形