论文部分内容阅读
在如今的大数据时代,Web2.0技术与社交网络的蓬勃发展为数据分析领域的研究者们提供了海量的用户生成内容。这些海量数据以文本、图像、视频、音频等多种模态的形式表达与呈现,具有高维、异构、语义丰富等性质,给传统的数据挖掘、检索、摘要生成等问题带来了前所未有的挑战。作为一类能够对数据特征及其蕴含语义的联合概率分布进行建模的机器学习方法,生成式模型(generative model)因能从数据产生的角度建模其概率分布,因而在对多媒体数据中多维度、多层次的异构隐语义的联合挖掘、分析与表示任务中具有优势。本文深入探索了基于生成式模型的语义联合建模中的关键算法,分析了其当前存在的不足与待解决问题,并有针对性地提出了解决这些问题的新方法。 具体地,本文的主要贡献与成果可以总结为以下几方面: 本文提出了面向多粒度情感分析的主题模型multi-grained sentiment latent Dirichlet allocation(MgS-LDA),实现了对客观主题与主观主题(细粒度和粗粒度的情感)的联合建模,刻画了数据中多层次、多维度的异构隐语义。本文提出的MgS-LDA模型在有监督隐狄利克雷分配(supervised latent Dirichlet allocation,sLDA)的框架下引入隐变量表示用户真实细粒度情感的主观主题,并通过构建由客观主题决定的先验分布以对数据中主观、客观异构隐语义的依赖关系与关联关系进行建模;模型进一步将文档各段落本身具有的粗粒度情感标签作为监督信息,挖掘文本中各个单词承载的客观主题与细粒度情感。实验表明MgS-LDA模型可以解析数据中客观主题与细粒度情感间丰富的关联作用,具有优于传统主题模型的泛化能力和较当前已有算法更好的粗粒度情感分类性能。 本文引入选择性约束以甄别文本或视觉单词对高层语义的表达能力,并基于该思路分别提出了无监督学习模型πLDA和有监督学习模型iosLDA。 πLDA模型对单词自身语义、单词所在数据片段(如文本中的段落或图像中的区域)的整体语义、单词具有的本征属性(如文本单词的词性或视觉单词的物体标签等)进行联合建模,并引入二元选择子来度量具有一定本征属性的单词在表达数据隐语义中的能力强弱,选取能够表达整体语义信息的重要单词,从文本、图像等数据中学习鲁棒性更高、噪声干扰更小的语义表示。本文将πLDA模型在多个文本或图像数据集上进行了训练与测试,验证了模型在聚类和主题建模任务中由于引入了重要单词的选择机制而获得了更好的性能。 iosLDA模型在单词自身语义和数据的主、客观高层语义的联合建模中,利用二元选择子刻画单词对主、客观高层语义内容具有的判别能力,由此构建较传统的词袋(bag-of-words,BoW)表示与主题词袋(bag-of-topics,BoT)表示更具数据内容判别力的判别性词袋(bag-of-discriminative-words,BoDW)表示。BoDW表示排除了平凡单词、背景单词与无关单词对语义描述的影响,因而提升了其自身在判别性任务中的性能。本文进一步对传统主题模型在为单词分配主题时对应的基本统计模型施加先验分布,提出并引入动态选择因子,对单词蕴含的判别能力进行细粒度建模。多个文本和图像数据集上的实验结果表明,iosLDA通过在有监督任务中对单词判别性进行度量获得了在主、客观内容分类与主题建模任务中性能的提升。 本文探索了对序列数据中跨模态语义进行联合建模的问题,并在编码器-解码器框架下提出了上下文注意力网络(context attention network,CAN),同时对图像序列的视觉特征、序列中各图像的上下文语义信息,以及这些信息在生成相应文本描述的过程中动态变化的影响力进行建模,以挖掘和捕捉具有跨越式语义变化的图像序列隐含的叙事结构,为序列生成连贯而生动自然的文本描述。CAN模型以区域级特征表达保留了图像中隐含的细粒度视觉语义,随后以区域间的语义关联度为权重,融合语义相关的区域以获得各区域的上下文信息;模型进而基于上下文注意力机制,动态地建模每一时刻图像序列视觉信息和上下文信息不同程度的受关注程度;最后,CAN模型还以层次化的解码器联合建模并利用了文本句间和句内的语义承接关系。在标准化图像序列描述数据集上的实验表明,CAN模型通过对图像序列的视觉信息及其上下文语义信息联合建模,在图像序列描述任务中获得了优于现有序列模型的效果。