基于生成式模型的语义联合建模关键算法研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cwwei1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的大数据时代,Web2.0技术与社交网络的蓬勃发展为数据分析领域的研究者们提供了海量的用户生成内容。这些海量数据以文本、图像、视频、音频等多种模态的形式表达与呈现,具有高维、异构、语义丰富等性质,给传统的数据挖掘、检索、摘要生成等问题带来了前所未有的挑战。作为一类能够对数据特征及其蕴含语义的联合概率分布进行建模的机器学习方法,生成式模型(generative model)因能从数据产生的角度建模其概率分布,因而在对多媒体数据中多维度、多层次的异构隐语义的联合挖掘、分析与表示任务中具有优势。本文深入探索了基于生成式模型的语义联合建模中的关键算法,分析了其当前存在的不足与待解决问题,并有针对性地提出了解决这些问题的新方法。  具体地,本文的主要贡献与成果可以总结为以下几方面:  本文提出了面向多粒度情感分析的主题模型multi-grained sentiment latent Dirichlet allocation(MgS-LDA),实现了对客观主题与主观主题(细粒度和粗粒度的情感)的联合建模,刻画了数据中多层次、多维度的异构隐语义。本文提出的MgS-LDA模型在有监督隐狄利克雷分配(supervised latent Dirichlet allocation,sLDA)的框架下引入隐变量表示用户真实细粒度情感的主观主题,并通过构建由客观主题决定的先验分布以对数据中主观、客观异构隐语义的依赖关系与关联关系进行建模;模型进一步将文档各段落本身具有的粗粒度情感标签作为监督信息,挖掘文本中各个单词承载的客观主题与细粒度情感。实验表明MgS-LDA模型可以解析数据中客观主题与细粒度情感间丰富的关联作用,具有优于传统主题模型的泛化能力和较当前已有算法更好的粗粒度情感分类性能。  本文引入选择性约束以甄别文本或视觉单词对高层语义的表达能力,并基于该思路分别提出了无监督学习模型πLDA和有监督学习模型iosLDA。  πLDA模型对单词自身语义、单词所在数据片段(如文本中的段落或图像中的区域)的整体语义、单词具有的本征属性(如文本单词的词性或视觉单词的物体标签等)进行联合建模,并引入二元选择子来度量具有一定本征属性的单词在表达数据隐语义中的能力强弱,选取能够表达整体语义信息的重要单词,从文本、图像等数据中学习鲁棒性更高、噪声干扰更小的语义表示。本文将πLDA模型在多个文本或图像数据集上进行了训练与测试,验证了模型在聚类和主题建模任务中由于引入了重要单词的选择机制而获得了更好的性能。  iosLDA模型在单词自身语义和数据的主、客观高层语义的联合建模中,利用二元选择子刻画单词对主、客观高层语义内容具有的判别能力,由此构建较传统的词袋(bag-of-words,BoW)表示与主题词袋(bag-of-topics,BoT)表示更具数据内容判别力的判别性词袋(bag-of-discriminative-words,BoDW)表示。BoDW表示排除了平凡单词、背景单词与无关单词对语义描述的影响,因而提升了其自身在判别性任务中的性能。本文进一步对传统主题模型在为单词分配主题时对应的基本统计模型施加先验分布,提出并引入动态选择因子,对单词蕴含的判别能力进行细粒度建模。多个文本和图像数据集上的实验结果表明,iosLDA通过在有监督任务中对单词判别性进行度量获得了在主、客观内容分类与主题建模任务中性能的提升。  本文探索了对序列数据中跨模态语义进行联合建模的问题,并在编码器-解码器框架下提出了上下文注意力网络(context attention network,CAN),同时对图像序列的视觉特征、序列中各图像的上下文语义信息,以及这些信息在生成相应文本描述的过程中动态变化的影响力进行建模,以挖掘和捕捉具有跨越式语义变化的图像序列隐含的叙事结构,为序列生成连贯而生动自然的文本描述。CAN模型以区域级特征表达保留了图像中隐含的细粒度视觉语义,随后以区域间的语义关联度为权重,融合语义相关的区域以获得各区域的上下文信息;模型进而基于上下文注意力机制,动态地建模每一时刻图像序列视觉信息和上下文信息不同程度的受关注程度;最后,CAN模型还以层次化的解码器联合建模并利用了文本句间和句内的语义承接关系。在标准化图像序列描述数据集上的实验表明,CAN模型通过对图像序列的视觉信息及其上下文语义信息联合建模,在图像序列描述任务中获得了优于现有序列模型的效果。
其他文献
全景视频作为一种日趋流行的视频展现形式,是在全景图像基础上发展而来。与传统播放器只能展示平面播放效果相比,全景视频可以通过形成多帧全景图像并包含音频信息来展示周边36
文档相似性度量是信息检索领域最重要的研究方向之一。单词移动距离(Word Movers Distance,WMD)是最近提出的一种能够有效衡量文档相似性的度量方式,其融合了基于神经网络的Wor
随着计算机在日常工作中的广泛应用,人们的许多工作已经依靠计算机来完成,与此同时,各种类型的信息系统也被广泛使用来支持这些工作。但是这些系统基本上是独立运行的,相互之间缺乏必要的交互、协作与感知,从而使得它们在协调多个人的活动、以协同完成某个共同的任务方面有较严重的不足。这也就是工作流管理系统WFMS从90年代以来吸引来自研究机构和产业界广泛关注的重要原因。 作为计算机支持的协同工作CSCW研
本文综合三维可视化技术,流视频技术和分布式技术,设计和实现了面向WEB服务的三维医学影像渲染系统。系统基于分布式管理框架Zookeeper和GPU渲染集群,实现了可用性和扩展能力平
足迹是一类重要的现场痕迹.如何快速、准确、科学地进行足迹检验,从而提高办案效率是当前足迹检验工作中迫切需要解决的问题,也是刊事技术理论与实践发展的新课题.该论文以平
学位
该文从研究分形图像编码和零树编码各自的优劣点以及之间的结合点出发,寻找了建立在图像纹理分析基础上的一种新的混合编码模式,其目的在于充分利用景物特征和人眼的视觉特性
该文首先分析了雷达对抗所面临的威胁和目前国内外雷达辐射源的识别方法,讨论了最具有爆发性的新兴学科——人工神经网络技术在未来军事系统中所起的作用.该文又提出一种雷达
随着信息全球化时代的到来,博物馆的管理和运作模式受到了巨大的冲击.数字化馆藏的迫切要求、资源共享的发展趋势以及日益多样化的文化传播方式,成为传统博物馆面临的严峻挑
在石油、化工等行业中,广泛使用各种螺旋杆机械,其中的螺旋转子制造技术则是多年来一直困扰其发展的关键难题。从1994年起,沈阳工业大学数控研究中心即对复杂异形螺旋面加工进行