深层多模态特征构建研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jsww2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化和计算机技术的不断发展,海量信息不断涌现。针对信息的特征提取是机器学习算法的首要工作,也是最重要的工作。深度学习神经网络可以充分学习这些信息并得到深层特征,在近年来取得卓越的发展。信息存在的形式和模态变化多样,针对不同的模态的信息需要不同的处理方式和信息提取方法。例如电影这一现实存在的对象中的信息存在模态就包括文本信息(电影简介等)以及图像信息(电影海报等)。目前电影产业蓬勃发展,每年的电影消费总额已经超过数百亿美元。这为模式识别、特征抽取等领域提供了丰富多样的数据,并且也提出了针对电影的应用需求,例如电影推荐系统等。因此,针对电影这种多模态信息存在的载体的特征提取引起了学者们的广泛关注。本课题的工作主要分为三个部分——针对文本信息的深层特征提取、针对图像特征的深层特征提取以及针对文本-图像多模态的深层特征提取。在本课题中,针对文本信息的深层特征提取工作在基础深层学习神经网络的基础上进行扩展,主要使用了卷积神经网络与递归神经网络相结合的方式提取文本信息。使用卷积神经网络与递归神经网络训练得到词向量(word embedding)。之后将依据得到的词向量矩阵将电影简介信息特征(对一个或多个句子分词,对句子中的所有词的词向量拼接得到)输入到一个递归神经网络之中。在电影情感倾向预测任务中,所有网络结构最终的拟合目标是电影的情感倾向。并与传统文本信息提取方法进行了对比。而针对图像的深层特征提取工作则针对电影的海报图像,使用深层卷积神经网络训练得到深层图像特征。卷积神经网络近年来在图像特征提取领取取得了巨大的成功。本课题还将深度学习网络与传统图像信息提取方法进行了对比实验。特征融合通常从特征层面及决策层面进行融合。本课题设计了文本及图像特征的融合模型,通过将文本序列特征进行高层时序特征提取后,与图像特征一起送入融合模型中得到深层融合特征,并与分别单独使用深层文本特征及深层图像特征在电影主题预测及电影评分预测两个任务进行对比实验。实验结果表明了融合模型的有效性。
其他文献
目的:探讨音乐冥想对寻常型银屑病伴焦虑患者的焦虑症状、肌肉紧张程度、瘙痒程度、皮损程度、生活质量的干预效果。方法:2016年12月-2017年11月,抽取北京市某三甲医院70例寻常型银屑病患者,随机分为对照组和试验组,每组35例。试验组在接受常规治疗和护理的基础上,进行音乐冥想治疗:研究者基于音乐冥想专业书籍,编制《寻常型银屑病伴焦虑患者音乐冥想实施方案》初稿,通过专家会议法对此方案进行修改,形成
被控对象、传感器以及执行器通过带宽受限的共享网络和控制器进行连接,构成的闭环反馈控制系统,称之为网络控制系统(Networked Control Systems,NCSs),这种网络化的控制模式
随着激光自混合干涉(Laser Self-mixing Interference)技术理论研究的日趋成熟,其原理被广泛应用到振动、距离、微位移、速度等各种测量领域中。激光自混合干涉技术是指在激
量子关联是量子物理的核心,为量子信息的应用提供了主要的资源。不同于众所周知的量子纠缠,量子失谐在测量角度表示了一种新的量子关联。最近,在两比特系统中,基于两个互补基
产油微藻是生产生物柴油的重要原料,为了提高微藻细胞的含油量,需要对微藻的油脂积累和代谢途径进行探索。油体是细胞内油脂储存和代谢的重要细胞器,对它进行深入研究对提高
目前1:500大比例尺数字地形图的成图方法主要有电子平板法、草图法、编码法等,但每种方法都有一定的局限和不足,特别是在外业内业的效率上总是很难提高,为了弥补这些局限和效
本文研究了多传感器运动图像序列的融合。进行运动图像的融合时,需要准确地将多个原始带有运动场景的图像中的有用信息保留并适当地融合到单张图像中,使得其能扩大动态范围并
无网格 Garlerkin 法(Element-Free Galerkin Method,EFG)具有前处理简单、计算精度高、收敛快等优势,已在结构固体力学领域得到了广泛应用,但其计算量偏大、计算耗时等缺点
目标跟踪是计算机视觉领域中的一个富有挑战的基础研究课题,在视频监控、智能交通、人机交互、视觉导航、医疗分析等领域有着广泛的应用前景。目标跟踪旨在对视频图像序列的
随着在航空航天、国防科技和其他工业上对高效高功率的激光需求,致使具有高功率输出性能的激光器成为了一个重要的研究领域。半导体泵浦碱金属蒸气激光器(DPAL)因为其采用的