面向社交媒体短文本的多模态主题模型

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jeall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,社交媒体在人们的日常生活中占据了越来越重要的位置。每天都有数以百万计的人在社交媒体上发布图片和文字来表达他们的感受和观点,尤其是在Twitter和微博等短文本社交媒体上。由于数据量巨大,人们需要一种工具来自动组织、总结并帮助人们理解这些海量信息。主题模型便是一种自动揭示文本数据中蕴含的主题的统计模型。近来,人们在社交媒体上发布文字的同时,经常会配上图片。由于图片可以为文本提供重要的补充信息来辅助主题的发现,许多多模态主题模型被开发出来。这些模型可以从多模态的社交媒体内容中挖掘出更加连贯的主题,也更加利于人们理解大数据的内容。短文本多模态社交媒体有三个重要特征。第一,短文本社交媒体中的文本因为简短而通常只表达一个主题。第二,由于一张图片能够表达更加丰富的信息,因而可以与多个主题相关。第三,虽然在大多数情况下,社交媒体文档中的文字和图片是相关的,但在少数情况下,文字和图片是不相关的。过去的多模态主题模型未能对短文本社交媒体的这三种特征进行建模,会导致主题中混入噪音等现象,并产生低质量的不连贯的主题。为了解决该问题,本文基于短文本社交媒体的三种特征,提出了一种无监督的多模态主题模型SMMTM来对社交媒体短文本进行建模。在SMMTM模型中,文本只属于一个主题,而图片的信息可以涉及多个主题。SMMTM模型也对文档中文本和图片的主题之间的相关性进行合适的建模,使他们的主题在大部分情况下保持相关的同时,也能够在部分情况下保持独立。SMMTM对短文本社交媒体建模时也存在不足。SMMTM模型假设图片和文本的主题都是一一对应且意义相同的。但是图片中存在字母等无法在文本主题中体现的信息,应当属于图片特有主题。在SMMTM模型中,这种图片特有的信息会出现在任意文档中并与不同词语共现,使得本不属于同一主题的词语间接共现,并导致挖掘出的主题不连贯。本文进一步提出了ITESMMTM模型来解决这个问题。ITESMMTM模型引入了图片特有主题,和图文共享主题一同对多模态的短文本社交媒体内容进行建模,从而将图片特有的信息与图文共享的信息进行区分。本文使用吉布斯采样算法对模型进行推断。本文在三个公开的短文本社交媒体数据集上进行了实验,和多个过去的多模态主题模型进行了对比,并通过四个主题模型的评估指标以及主题可视化来展现本文提出的模型的优势。实验表明,SMMTM和ITESMMTM模型能够很好的建立短文本社交媒体中文本和图片之间的联系,有效地挖掘出连贯的多模态主题。
其他文献
关系分类旨在确定一个句子中给定两个实体之间的关系类型。目前有监督的关系分类方法需要大量提前标注的数据,而基于远程监督的方法能通过自动对齐语料库的知识来扩展数据量,但是会出现明显的长尾分布问题。因此,如何利用尾部的少量样本完成关系分类成为任务的热点,也是本文的主要研究方向。目前大多数研究都是采用预训练模型结合微调(Fine-tuning)的方式,但是随着模型参数的增多导致微调的过程需要大量的时间和数
学位
投票是我们日常生活中非常常见的一项集体活动,是实现集体决策的一种常规手段。2017年,Mc Corry等人在以太坊区块链上实现了一种自计票投票协议来达成完全去中心化的秘密投票,但现有的自计票投票协议要求所有投票人都必须在规定时间内完成秘密投票,否则就会导致投票失败或者投票人损失押金,而未能及时投票的投票人(以下简称懒惰者)可能并非是恶意的,只是因为网络堵塞或者设备故障,甚至仅仅只是因为临时有事耽搁
学位
蛋白质作为人类生命活动的主要承担者和生物功能的最直接执行者,目前存在多种形式的翻译后修饰,而糖基化是其中最重要的以及研究最广的翻译后修饰之一。质谱技术的兴起对分析检测糖蛋白/肽具有不可估量的作用,但是却不能用质谱对糖蛋白/肽直接进行检测,这是糖蛋白的丰度低以及非糖肽的信号强度高会掩盖被检测的糖肽信号峰所导致的。因此,科学家们研究并开发了一系列对糖肽进行分离和富集的亲和方法,主要包括凝集素亲和法、肼
学位
十多年来,共价有机骨架(COFs)快速进展并取得实质性成就,目前已经开发出分子水平修饰、表面工程、异质结耦合和纳米结构等有效策略来提高光催化性能。不同于非晶态多孔有机聚合物,具备拓扑学分子可设计性是晶态COFs最为关键的特征之一,因而COFs从结构设计到合成过程,乃至COFs的功能化都能实现高度可控,这赋予COFs在结构上的独特优势。目前,COFs作为光功能材料被成功制备和研究,并广泛应用于水分解
学位
无感知环境下的人脸识别无需用户停留或注视摄像头,而只需他们自然通过即可被识别,这不仅能够提高用户体验,还能帮助实现人员追踪及搜索等应用。然而,现有的训练数据集缺乏人脸被遮挡、角度大、虚焦和光照过亮或过暗等无感知场景下的人脸数据,从而使得人脸识别模型难以提取这类场景中数据的有效特征,最终导致样本漏识别或误识别。因此,为了让模型具备适应无感知场景的能力,需要在其训练过程中加入大量的这类场景下的数据,从
学位
超分子凝胶是由小分子凝胶剂在非共价相互作用驱动下自组装形成的一种软物质材料,在制备手性光学材料和开发手性应用方面具有重要作用。本文旨在基于超分子凝胶制备手性光学材料,尤其是进一步开发新的基于L-谷氨酸的两亲性手性凝胶因子,并对其手性纳米结构和超分子手性进行调控;同时,通过将荧光基元与已有的L-谷氨酸两亲性手性凝胶复合,进一步赋予和拓展其在圆偏振荧光方面的性质和应用。研究主要分为以下两个方面:(1)
学位
网络表示学习的目标是在有效保留网络信息的前提下将节点映射到低维向量空间进行表示,从而支撑网络数据挖掘的众多下游任务,如链路预测、节点分类等。网络表示学习已经成为网络分析领域的研究热点。现有的网络表示学习方法主要面向静态同质网络进行设计,然而现实世界中的网络通常是包含多种类型节点和链路的异质网络且网络结构随时间不断变化的动态网络,如电商网络、社交网络等。静态同质网络建模方法忽略了异质网络中丰富的语义
学位
有机小分子荧光探针具有选择性好、响应时间快、使用方便等特点,被广泛应用于小分子,阴阳离子等的检验。荧光探针根据不同的响应机制,可分为淬灭型荧光探针、增强型荧光探针和比例型荧光探针;与另外两种只有单一响应机制的淬灭型和增强型荧光探针相比,比例型荧光探针可通过两种发射峰的强度比值变化来进行自校正以消除其他因素对探针的干扰。有机小分子荧光探针不但适用于传统的检测实验,还由于其对细胞伤害非常小的特点,应用
学位
多目标跟踪(Multi-Object Tracking,MOT)作为计算机视觉的热门研究方向之一,在智能交通、自动驾驶、安防监控等场景有重大商业价值。然而,主流的多目标跟踪模型往往引入了大量参数,难以在移动设备上实时运行。因此,本文将提出一个可以在移动设备上实时运行的多目标跟踪模型,并针对两个关键问题进行研究:(1)目标检测作为多目标跟踪的上游任务,对跟踪效果尤为重要,跟踪模型需要在保证实时性的条
学位
本论文合成了一系列含苊醌双亚胺自由基化阴离子配体的稀土金属(Sc,Y,Lu,Gd,Dy,Tb,Nd)配合物和含苊醌双亚胺阴离子配体的稀土金属(Sc,Y,Lu)配合物。采用核磁共振氢谱、碳谱、红外光谱、紫外光谱、Evans方法及X-射线单晶衍射等测试和分析手段对一些稀土金属配合物进行了表征,并探究了以上配合物对异戊二烯的催化性能,探索该氧化还原性配体在稀土金属配合物催化异戊二烯聚合中的影响。在本论文
学位