基于有监督集体矩阵分解的跨模态情感分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lostbridge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动设备,互联网技术以及社交网络的发展,社交媒体上积累了越来越多的用户上传的图片,文字,视频等等多媒体信息。通过这些多媒体数据,可以对用户的情感进行分析,从而产生巨大的应用价值,如选举预测,舆情监控,个性推荐等等。本文针对Flickr社交媒体中用户上传的图片及其评论进行分析,主要创新点包括:通过聚类词袋模型对文本数据进行特征提取,通过有监督集体矩阵分解进行图像特征和文本特征的融合,通过集成学习进一步提升效果。围绕上述创新点,本文从如下几个方面介绍了基于有监督集体矩阵分解的跨模态情感分析算法。图像特征和文本特征的提取。对于社交网络中的图片,由于其情感信息非常复杂,且缺少足够可信的标签信息,本研究中采用了在图像分类任务中取得优异结果的预训练网络作为特征提取器,从图片中提取深度图像特征。对于图片相关的文本数据,由于tag信息被用来提供弱标记信息,本文只将图片相关的评论作为文本数据。对于这些文本数据,首先进行拼接并去除介词,得到词语列表,之后将词语转化为词向量,利用词向量本身的距离信息,进行聚类,最后通过词语与聚类中心之间的距离信息,构造当前图片的聚类词袋模型作为文本特征。通过在三类情感极性数据和六类情感类别数据上的实验,结果验证了图像特征和文本特征本身的有效性以及BoGV文本特征相对于直接使用Glove特征的优势。图像特征和文本特征的融合。图像特征和文本特征是对不同数据进行的处理,可以认为是对一张图片中所反映的情感的两个不同方面的刻画。为了更好的对图片的情感进行描述,需要将两种特征结合起来。传统的方法包括直接拼接,关联分析和矩阵分解等等。但是这些方法都是无监督的,即其寻找关联的过程都是针对数据本身的统计信息的,而对数据本身的目标并没有描述,因此往往效果有限。为了更好的利用图像特征和文本特征,本文通过拉普拉斯矩阵的方式,将标签信息引入到集体矩阵分解的过程中,希望具有同样标签数据的样本分解后的结果同样具有类似的数值表现。同时,针对本研究中采用的类似直方图的数据,采用了直方图交叉核函数支持向量机对数据进行进一步的预测,得到进一步的效果提升。通过在三类情感极性数据和六类情感类别数据上的实验,结果验证了直方图交叉核函数支持向量机的有效性,SCMF特征融合算法的有效性以及相对于已有算法的提升。基于上述特征的集成学习进一步提升。由于情感问题的复杂性,目前不论是已有方法,还是提出的算法,效果都不是很好,属于弱学习器,因此可以通过集成学习对结果进行进一步提升。本研究中通过Stacking的方法,通过基学习器构建初步学习结果,并通过次级学习器进行二次学习,得到更好的结果。本工作中采用了包括梯度提升决策树,随机森林,多层感知器,支持向量机等多种异构学习器作为基学习器,通过多层感知器和逻辑回归两种模型进行二次学习。通过在三类情感极性数据和六类情感类别数据上对三种特征进行的学习,本文获得了相比之前结果更优的学习结果,验证了该方法的有效性。
其他文献
目的颅脑损伤(TBI)是一种常见的多发病,其发生率仅次于四肢骨折,但残死率居首位。然而轻度颅脑损伤(m TBI)的发病机制目前尚未明确,因此到目前为止还没有明确的诊断标准、鉴
背景:环磷腺苷效应元件结合蛋白(cAMP-response element binding protein,CREB)及其转录共激活因子1(CREB-regulated transcription coactivator 1,CRTC1)广泛表达于大脑,两
本文我们主要研究平面伽利略共形代数的结构,近年来在非相对论的AdS/CFT猜想范围内对伽利略共形代数(GCA)进行了研究.平面伽利略共形代数是伽利略共形代数(GCA)的推广,并且平
目的 通过观察固本定颤方对于肾虚痰浊型帕金森病患者UPDRSⅢ、中医证候评分、改良H-Y分级以及血清Hcy、Hs-CRP等指标的影响,评价其临床疗效,为固本定颤方治疗帕金森病提供依
促肾上腺皮质激素释放激素(corticotropin-releasing hormone,CRH)是下丘脑—垂体—肾上腺(hypothalamo-pituitary-adrenal,HPA)轴的中枢驱动因子。CRH作为重要应激反应分子
肺癌是世界上最普遍和最致命的癌症,而非小细胞肺癌(NSCLC)是最常见的肺癌组织学类型。当前肺癌的治疗方法主要包括化学疗法、放射疗法、手术疗法以及生物疗法。然而,这些治
背景随着社会的发展,尤其是现代交通工具的广泛应用及基建的迅猛发展,创伤事件的发生逐年上升,创伤的致残、致死以及创伤后的一系列并发症给人们健康及其家庭带来了巨大威胁
近年来,柱矢量光束的研究受到越来越多的学者关注,其电场方向在横截面上呈中心对称分布,强度分布呈圆环形,中心处光强为零,和普通偏振均匀的高斯光束有明显不同。正是由于这样独特的偏振特性,其被运用于激光加工和粒子操控等诸多领域。已有各种产生柱矢量光束的方法被提出和研究,可以分为自由空间和光纤中的主动、被动方法。全光纤锁模激光器是一种产生高性能飞秒激光的理想光源,经过这十几年的发展,性能已经得到很大的提升
本文主要研究了完备的矩形b-度量空间中关于C类函数压缩的不动点定理。首先,结合C类函数的性质给出广义的α-ψ-φ-θ-F压缩映射的概念,并借助三角α-容许映射,通过构造迭代序列的方法证明了当满足某些特定条件时,矩形b-度量空间中的这种压缩映射有唯一的不动点。将广义度量空间上关于C类函数的不动点结论推广到了矩形b-度量空间。并且给出在矩形b-度量空间上的不动点结果的例子和应用。论文的第二部分介绍了
穿山龙为穿龙薯蓣Dioscorea nipponica Makino的干燥根茎,富含甾体皂苷类成分,主要被现代制药工业用作原料来生产薯蓣皂苷元(Diosgenin),该化合物是合成肾上腺皮质激素、性激